国立国会図書館のデジタルコレクションが、昨年暮れから今年の初めにかけてさらにヴァージョンアップされました。それは全文テキスト検索とそれによるスニペット表示が可能になったこと、そして、50コマまでの複写が可能になったことです。全文テキストというのは、資料の版面からスキャンして得た画像からOCR技術を通じて文字を抽出して作成するものです。これによってテキストに含まれる文字列での検索が可能になります。従来、書誌事項(タイトルや著者名など)や目次(これが検索対象になったことも重要だが)からの文字列が対象だったのが、本文が検索対象になったことは革命的なものをもたらします。今まで見えなかったものが見えるようになったということです。ただし、検索結果の表示は1行程度の部分的なものです。これは、著作権法(47条の5)に基づく措置です。また、50コマまでの複写が可能になったことも特筆すべきことです。だいたい1コマは見開き2ページ単位なので、実質的に100ページまで複写(あるいはpdfによるダウンロード)が可能になります。前に比べてもさらに使い勝手がよくなったと感じます。
このデジタルコレクションについてすでにブログでも取り上げていますが、それは昨年5月に個人向け送信が利用可能になる前の記事でした。そこで、その後の利用経験とこのシステムのヴァージョンアップを踏まえて、少し考察してみたいと思います。
国立国会図書館デジタルコレクションの凄さ(2021-12-26)
この記事ではわざわざ図書館に行ってまで使う価値があるとしたのでしたが、実際に個人向け送信を使ってみて、ネットを通じてどこからでもアクセスできる便利さは何者にも代えがたいと感じています。大げさに言えば、今後の日本人の知識行動を大きく変える可能性をもつものだということです。そのことは図書館員向けの研修などでもお話ししています。
日本人(とくに知識人とされる人たち)には、本を所有することが知を獲得するための要件であるとする傾向があったために、図書館は最後の砦であり、できればお世話になりたくないと考えていた節があります。それは図書館が十分に整備されていなかった時代の記憶が作用しているからかもしれません。しかしながら、NDLがもつ蔵書の古い方(基本的には1968年以前)が一挙にデジタル化され、それらにいつでも安定的にアクセスできるようになったことは、多くの人に驚きを与えました。今のところ、そのあたりを評価する言説は限られていますが、読書猿『独学大全』(2020)、小林昌樹『調べる技術』(2022)といった本が売れていることは、文献資料を使った調査や研究の方法が一般的になり西洋的なものに近づいてきたことを示します。学習指導要領における探究学習の導入も後押ししているかもしれません。「論文の書き方」の類いの本も新書版でけっこうたくさん出版されています。ネットでの安易な情報アクセスに対する批判も背景にあります。
デジタルコレクションの使用例
数年前から学校図書館史の研究を手掛けています。『教育改革のための学校図書館』(2019)の第3章を書き、その後最近になって戦後新教育における学校図書館の振興にかかわる教育課程の展開をテーマにした論文を何本か書きました。そのうちの3本をブログで紹介しています(「学校図書館関係論文の公表」2023-01-20)。これらを書くにあたっては、以前から所属大学の図書館にあった資料を中心に都内のいくつかの図書館で資料を探して分析してきました。現物資料に当たることは重要ですが、戦後間もない時期の出版物で紙や製本の質が悪くすでにかなり劣化していることも気になりました。
同じものは国会図書館にも所蔵されていたのですが、行かなくてはならないし、書庫から出してもらうのに時間がかかるし、と思いおっくうがっていました。しかしあるとき、国会図書館にしかないものなので、行って並んでいる端末で検索するとその場でデジタルコレクションがすぐに利用できることに驚かされました。それが確か2年前くらいのことで、利用するには国会図書館に行くか、最寄りの図書館への送信資料を利用するしかなかったのですが、その大きな可能性に気づきました。先の「凄さ」というブログ記事を書いたのはその頃です。「近代資料デジタルライブラリー」がNDL館内で利用できるようになったのが2010年で、図書館送信が始まったのが2014年ですから、だいぶ遅い気づきでした。図書館関係者としてもちろん知ってはいたのですが、使えるかどうかの判断はやってみないと分からなかったということです。
ブログでも書いたように、このシステムは
① 20世紀中頃までの国内出版物のかなりの部分をカヴァーしていること
② 検索したコンテンツがすぐに読めること
③ 検索が著作物の書誌事項(著者名、タイトル、出版社など)に加えて、目次レベル(章のタイトルや著者名)で可能になったこと
の3点が重要です。とくに③に助けられました。それは従来、ある人の著作が図書や雑誌記事なら検索可能だったのですが、多数の人が寄稿する概説書や論文集、全集などの集合的著作について、個々の章や記事、論文の検索ができなかったからです。デジタルコレクション(NDLオンラインも同様)によってかなりの発見がありました。とくに、上記のテーマでは文部省の初代の学校図書館担当官深川恒喜という人が重要であり、次のようにこの人についての著作目録をつくったのですが、その際に役に立ちました。
「深川恒喜研究のための予備的考察(付 深川恒喜著作目録暫定版)」『図書館文化史研究』第39号, 2022,p.173-200.
そのシステムが昨年から、個人送信で利用可能になり、さらに、全文検索が可能になったということで、さっそく使ってみました。この深川さんについて検索してみると、このシステムで1755件のヒットがあります。旧制大阪高校文科乙類そして東京帝国大学文学部宗教学科の卒業生であることが官報や卒業者名簿によって確認できたり、文部省職員になってからさまざまなところに名前が出てきて足跡を辿りやすくなっています。先の著作目録も改訂が必要になってくるものと思われます。
JEPAセミナー「国立国会図書館デジタルコレクションのリニューアル」
ということで、ヴァージョンアップされたシステムの全容を把握したいと思い、2月28日夕方のJEPAセミナー「国立国会図書館デジタルコレクションのリニューアル」(岡本常将氏 国立国会図書館関西館電子図書館課)に参加しました。その後、映像が公表されています。
https://www.youtube.com/live/7nxUgoRgNgI?feature=share
このセミナーでは、NDL関西館の担当者である岡本氏が要領よく今回のヴァージョンアップの特徴について説明してくれました。
まずリニューアルされた国立国会図書館デジタルコレクションについて、
(1)国立国会図書館におけるデジタル化及びテキスト化の状況
(2)国立国会図書館デジタルコレクションの主な機能
(3)図書館及び個人向けデジタル化資料送信サービス
を説明し、とくに図書館及び個人向けデジタル化資料送信サービスの対象となる資料がどのようなものなのかについて解説しています。そこで重要なのは「入手困難」という概念でそのあたりについてです。
(1)「入手困難」の定義
(2)国立国会図書館で行う入手可能性調査
(3)事前及び事後の除外手続
(4)今後の課題
マニュアル等に書いてあっても理解しにくいことが開発者の視点から説明されたので全体的な理解が進みました。私的なメモとして、
・全文検索、2020年までの247万件テキスト化
・検索結果の表示の適合度計算について、検索キーワードが書誌データか目次か全文テキストかによって重みづけが異なっている。
・個人送信利用登録者数、10万人
・俳句、短歌、名簿等のスニペット表示がそれだけで著作物とされるので館内送信のみのものがある(著作権法47条の5)
・住所等についてはスニペット表示は個別の要求に応じてマスキング等をする(「忘れられる権利」対応?)
・デジタル化の対象資料はNDL蔵書の古い順から資料の価値は考慮に入れず順番に行っている。
といった点が新しい情報でした。10万人という登録者数が多いのか少ないのか俄には判断がつきません。ただ今後、ますます利用者が増えていくのではないかと思われます。
適合度についてなぜ問うか
検索結果の適合度順表示について、「適合度計算のアルゴリズムは公開されていないのか。もしされていないなら図書館という機関の検索は透明であるべきでは?」という質問と意見を送ってみたら、「重み付け等について公開されていない。要望は担当者に伝えておく」というお答えでした。以前から、「適合度」という言葉の恣意的な使い方に違和感を覚えていたのでこのような質問をした次第です。
適合度(適合性とか関連性とも言う)relevanceは図書館情報学で検索システムの評価に用いる重要な概念です。要するに、検索者が求めるものがどれだけ得られるのかという尺度なのですが、そもそも「求めるもの」とは何なのか、「得られたもの」は検索結果なのでしょうが、「求めたものが得られた」となるのはどのような場合なのか、というような難しい問題があります。
Googleが開発当初、検索結果の表示順(適合度順)に、PageRankと呼ばれる手法を使ったことが知られています。これは、検索におけるウェブサイトの適合度を判断するにあたって、そのサイトへのリンクを貼っているウェブページの数に加えて、そのウェブページの重要度を被リンク数の数に応じた重み付けをしたことが知られています。これはリンク数という量的なものをベースにした適合度判断ですが、これはやればやるほど特定のサイトに集中するという問題があります。他者が求めるものはいいものだからそれを求めるというマーケティングの一つの原理に依存していますが、逆に多数者が求めるものを避けて質的な評価をするのには不適切です。
NDLデジタルコレクションを検索する際に初期画面では「簡易検索」になっており、キーワードを入れると何かが検索されます。その表示はデフォルトでは「適合度順」です。利用者はそれぞれ多様な目的のために検索するわけですが、どのようなキーワードをいれるとどのような結果が得られるのかを理解していれば、適切な検索をしやすくなります。この表示の順序は、タイトル、著者、出版日、請求記号の昇順、降順にも切り替えられます。これらの順序は五十音順だったり、数字や記号の順序ですから分かりやすいのですが、この適合度順というのだけはよく分からないわけです。システムが勝手に適合度を判断しているように見えます。そこで上記のような質問になったわけです。
適合度はシステム開発者の判断でアルゴリズムを決めることが可能ということは、開発者間では共有されているのかもしれないのですが、図書館利用者にとってはそうでないわけです。Googleの検索アルゴリズムが公開されていないことが問題になったことがありますが、図書館ではこの部分は一定程度公開されるべきでないかと考えます。