2024-12-03

知のオープン化と NDLの役割(2)ーナショナルライブラリーの今後

NDLは(デジタル)コンテンツの専門機関

現行の国立国会図書館法(NDL法)の納本制度に関わる条項は次のスライドのとおりである。まず,古くからある納本制度は,同法の24条(国の機関),24条の2(地方公共団体の機関),25条(それ以外の者)によって当該の機関や者は,24条1項に列挙されている「出版物」を発行したら納入する義務がある。見てのとおり,図書から始まって多様な種類の資料が出版物として掲げられている。映画フィルムや蓄音機用レコードなどのオールドメディアがここに含まれている。第8号までは1948年にこの法律ができたときから対象になっていたものであり,第9号はいわゆるパッケージ系の電子出版物の納入規定で2000年から付け加わった。それに対して,同法25条の3により,国の機関および地方公共団体の機関のインターネット資料の収集が可能になっている。インターネット資料とはインターネットで公衆に利用可能な文字,音声,映像,プログラムとされている。通常は自動的な収集ソフトウェアによって取得される。民間のネットワーク系電子出版物(オンライン資料)も収集が可能になっている。

NDLが資料を閲覧に供したり,デジタル化して送信したりするには,著作権を制限する必要があるので,著作権法との関係も深い。とくに,インターネット資料やオンライン資料の収集はここ15年ほどのことであるが,これらを実施するためにはNDL法だけでなく,著作権法の改正も伴っていたので,その当たりについて見ておきたい。(法律の条項は現行のもの)

・2009年(平成21年)著作権法改正ーNDLでの資料の滅失を防いだり,絶版資料のデジタル送信するために資料のデジタル化を可能にした(著作権法31条6項)

・2009年(平成21年) NDL法,著作権法改正ーNDLが国,地方公共団体,独立行政法人等の提供するインターネット資料の収集を可能にした(NDL法25条の3,著作権法43条ほか)

・2012年(平成24年)著作権法改正ーNDL法21年改正で認められたデジタル化された資料の一部(オンライン資料)を図書館に対して公衆送信を可能にした。(著作権法31条7項)

・2021年(令和3年)著作権法改正ー国立国会図書館によるオンライン資料の登録利用者への送信(31条8項〜同条11項)

これらの措置は,国のデジタルトランスフォーメーション政策の一環にも位置付けられていたことが重要である。アメリカの著作権法においては,フェアユース(一定の条件の下で権利者の許諾なしに著作物使用が可能になるという考え方)の存在を前提にしていたことで,ICTの技術開発がしやすかったとされる。日本でも,「権利制限の一般規定(日本版フェアユース規定))が検討され,2018年(平成30年)著作権法改正により新設された法30条の4が導入され,47条の4,47条の5が新設された。この動きについてはブログで紹介している。(2022-12-08「Google Booksと同じような検索ツールは誰でもつくれる」)2021年法改正はこうした動きを受けてのものである。個人的には,2009年の31条6項がもっとも印象深い。NDLが入手した資料をすべてデジタル化することを可能とする規定だからである。

さて,こうした動きをどのように評価すべきだろうか。著作権を一部制限してデジタル化やデジタル資料の公衆送信を行うことはどのようにオープンサイエンスに近づくのだろうか。利用をパブリック・ドメインにおいたり,オープンライセンスを付与して利用しやすくすることは著作者や研究者などの発信者の役割であるのに対して,図書館は仲介者として,開かれたアクセスや直ちに又は可能な限り速やかに提供とか無償であることに貢献する。










かつては,こうした仲介者の役割はそれほど注目されなかったが,状況は大きく変化している。これは今まで述べたもの以外にも,デジタルアーカイブを横につなぐハブとなるJapan Searchの開発や先進的な知識工学的技術開発を行っているNDLラボなどの活動がある。国のデジタル化戦略に組み込まれていることは,たとえば,首相官邸に置かれた知的財産戦略本部が毎年出している『知的財産推進計画2024』では,NDLについて,「国立国会図書館は立法府に属する機関であるが、デジタルアーカイブに関する施策は国全体として取り組むものであり、同館は重要な役割を担っていることから、便宜上、本計画に関連する同館の事業について担当欄に記載するものである。」(p.64)と注記を入れて,何度も言及している。

この点で,NDLは(デジタル)コンテンツ保存・管理・発信のナショナルな専門機関としての役割を担う代表的な機関となっていることは明らかである。著作権を制限することで,知のオープン化に向けての仕掛けをすることに、国全体の合意が得られているのである。

別の観点から見ておくと,その陣容の大きさということがある。この点は図書館関係者はあまり口にしないが,スライドの<参考>にあるように,常勤職員の数が900人弱というのは,国内の大規模図書館のなかでもひときわ大きな存在である。このリストで横浜市や大阪市,東京大学は多数の地域館や部局図書館(室)を合わせての数である。また,文部科学省が外局や所轄機関を合わせて2000人程度の職員数であり,その半分くらいの規模があると考えてよい。こういう陣容の組織に,新しい時代のナショナルライブラリーの形を示してもらいたいと思うのは自然なことではないだろうか。










NDLのカバー範囲

次にオープンサイエンス知識の管理という図書館が貢献できる領域で,NDLがどのように位置付けられるのかについて見ておこう。次の図は縦軸にメディアのオープンネスの段階を4つに分け,横軸にはメディア発生の場と拡がりを4つに分けて示したものである。オープンネスは外部に対する公開の度合いであり,「クローズド」「グレイ」「パブリッシュ」「オープン」の4段階で示した。メディア発生の場と拡がりは,「プライベート」「コミュニティ・アソシエーション」「ナショナル」「インターナショナル」の4つである。これで,4×4=16のマトリックスができることになる。たとえば,「プライベート」なドキュメントとして,作家の書簡,日記,メモなどがあるが,通常は「クローズド」の形でつくられている。これが,何らかのかたちで「発見」され,研究対象になったりすれば「グレイ」の状態に置かれる。そして,それが公開すべきとなったときに,編集されたのちに著作集とか全集という形で「パブリッシュ」される。さらに,これがデジタル化されて「オープン」になる状態がある。「コミュニティ・アソシエーション」は中間段階の組織がもつドキュメントであり,「ナショナル」は国および国レベルでのドキュメントであり,「インターナショナル」は国を超えたレベルでのドキュメントでいずれも「クローズド」から「オープン」になる段階がある。











国立国会図書館の伝統的な守備範囲を見ると,本来納本制度は日本国内の「出版物」を対象としていたから,プライベートなものは除かれるとしても,国内出版のものはすべて含まれるはずである。その出版物の定義も映画フィルムやレコード盤,電子的・磁気的な記録物も含んだかなり広義のものだったが,ここでは主として文字を用いて知識を記録した「図書」「小冊子」「逐次刊行物」を考える。この図で網掛けで示したところは従来の納本制度がカバー範囲として想定してきた部分であり,「ナショナル」なレベルでの「パブリッシュ」されたものを中心としてきた。

なお,この図は大雑把なものしか示していない。「プライベート」なものでも「パブリッシュ」されれば納本対象になるはずだがそれらはここでは除かれている。これにインターネット資料やオンライン資料を含めて,現在の守備範囲は次のように示せるだろう。










納本資料の中心である「ナショナル」×「パブリッシュ」の部分(オレンジ色)に加えて,グレーの部分は本来想定されているところかもしれない。「パブリッシュ」については「プライベート」から「インターナショナル」まで全部をカバーするはずである。薄緑色のインターネット資料は「コミュニティ・アソシエーション」の「グレイ」から「オープン」まで拡げてカバーすることができるし,青色のオンライン資料も「コミュニティ・アソシエーション」のカバーを拡げてくれる。

ここで「商業オンラインジャーナル」(青色)について,とくに外国のジャーナルは日本の法制度の適用外とされるからNDLではうまく対応できない。また「運動系資料」(黒)としているものは,「プライベート」や「コミュニティ・アソシエーション」の「クローズド」や「グレイ」のものを含むが,これらも一部を除くと対応できていない。










網羅と質の保証の両立は可能か?

以上のものを基にして,オープンサイエンス時代のNDLの資料保存と提供体制について考えてみたい。

コンテンツの定義の見直し(国図法 24条の納本資料の範囲,グローバルに拡がる「出版地」,サブスク・コンテンツの保存)ー納本制度を見直しするかどうかは別として,法の24条,24条の2,25条が対象としている「資料」の種別や範囲が現状に合っていないことについて検討すべきではないだろうか。オンライン資料やインターネット資料の「出版地」がサーバーが置かれた場所でよいのかどうか。また,サブスクリプション契約のコンテンツの扱いについてはどうか。
グレイな領域(地域資料,サブカル関係,運動系資料…)ーこれまでの図書館経営は学術資料を前提としてきたが,オープンサイエンスの理念の下にシティズン・サイエンスを考えると市民が直接生産したり,やりとりしたりするコンテンツの扱いが重要になる。これまでも地域資料やサブカル系資料,運動系資料は入手しにくくNDLは十分に対応してこなかったが,そのままでよいのか。
クローズドな領域の受け皿(憲政資料室ほかの特別コレクションの拡大...)ーNDLの憲政資料室はクローズドな政治家の資料の受け皿として重要だった。国立公文書館他のアーカイブズ機関との関係をどのように考えるか。
ネット上の無数のコンテンツの扱い(ブログ,オンライン文芸,オンラインジャーナリズム,写真,動画,ゲーム,データベース)ー出版物やオンライン資料の定義は実は曖昧であり,ネット上にさまざまなコンテンツがある。これらの一部はかつてなら紙の出版物として発行されたものがネット上に置きかわったものである(オンラインジャーナリズムなど)。動画やゲームのなかには十分な科学的根拠をもったコンテンツとして位置付けられるべきものも含まれる。
動的に変化するコンテンツの保存問題(WARPの拡張,米Internet Archiveの苦闘)ーオンライン資料やインターネット資料は固定されたコンテンツにならず,常に変化する可能性がある。これは,「版」の概念とも「逐次刊行物」の概念で扱いきれないところがある。インターネット資料の検索システムをどのように考えるか。アメリカのInternet Archiveはフェアユースの範囲でコンテンツの公開を行っていたが,著作権者からの訴訟に悩まされている。NDLは法的な武装をしながらここまでやってきたわけだが,今後は著作権者や著作者との軋轢が生じる可能性もある。

ナショナルライブラリーは国民国家成立とともにつくられたが,その第一の目的は,国家にある知的所産を収集保存しそれを一望の下におくことで,知識の流通をはかることにあったと考えられる。ただし,それは書物などの紙メディアが知の流通と保存のためのメディアとして重要であると考えられたからである。NDLの成立の理念もそこにあるが,21世紀になってその前提は揺らいでいる。そもそも,納本制度で規定された資料のカテゴリーは古めかしく,それらを網羅的に集める意義は薄らぎつつある。とは言え,ネット上のものについてどのように網をかけて収集することができるのかについても不明の点が多い。




知のオープン化と NDLの役割(1)ーオープンサイエンスのための図書館

 本年の図書館総合展の企画の一つで,「オープンサイエンスを社会につなぐために―国立国会図書館の取組を踏まえて」(11月6日午後1時〜2時半)に参加したときのことを書いておこう。公式のものは別に出るが,十分に時間がなくてお話しできなかったことも含めて,ここでは私自身がこれにどう取り組み,なぜそう発言したのか,さらにそれをどう考えているのかについて書いておこう。

使用したスライドはhttps://www.ndl.go.jp/jp/event/events/forum03-1.pdfとしてオープン化されている。

また,講演自体はすでにYouTubeで映像が公開されている。そこにもスクリプトもついているが,ここではそれとは少し変えて,作成したスライドに改めてキャプションをつけるという方法で書くことにしたい。したがって,スライド,映像(すでにYoutubeにて公開済み),講演要約(いずれ『国立国会図書館月報』に掲載予定)に加えて4番目のテキストになる。




知のオープン化の事例


講演タイトル


ここ数年,図書館情報学において「知」ないし「知識」をどのように位置付けているのかに関心をもってきた。よく,図書館は知というコンテンツ(内容)を含んだコンテナ(容れ物)である書物(あるいは資料)を収集蓄積した「知の宝庫」であるという言い方がされる。ところが,資料がデジタル化,ネットワーク化された場合,コンテンツとコンテナの区別は曖昧になる。そればかりか,電子図書館はどこにいてもアクセス可能である。となると,すべての書物,あるいは資料がデジタル化,ネットワーク化された電子図書館が出現するのが理想ということになる。知のオープン化に向けての歩みが進んでいるように見える。

しかしながら現実には,そのように進んでいるわけでない。それにはいくつかの理由がある。それが実現するためには,①著作権の壁や②デジタル化やネットワーク化のための費用負担,③実現するための高い技術開発が主たるハードルである。それ以外にも,こうしたシステムができたからといってそれが「知の宝庫」と言えるかというもっと原理的な問題にも答えなければならないが,ここではそれは措いておく。ともかく,ここでは日本では国立国会図書館(以下NDLとする)がそれに果敢に取り組んでいる唯一の機関であることについて述べておくことにする。




最初に,今取り組んでいる二つのプロジェクトがいずれも知のオープン化の動きと密接な関係をもっていることについて触れた。一つはこのスライドにある「知識組織論研究会(KO研)」である。これは,年に4回,オンライン会議ツールで議論する場を提供するものだが,そこでは,ヨーロッパ中心に展開されている同名の学会(ISKO)が提供しているオープンドキュメントの「知識組織論事典(IEKO)」を読解することで進めようとしている。この動きについては,本ブログの別項目で触れているので参照されたい。

事典編集そのものが知識組織化の重要な営為であることは言うまでもない。現在もオープンで自由参加の百科事典Wikipediaが多くの人たちにとって重要な情報源になっている。専門事典でよく知られたオープンドキュメントとしては,1995年からスタンフォード大学を拠点に開設されている哲学百科事典のStanford Encyclopedia of Philosophyがある。Wikipediaがコンテンツ作成もオープンになっているのと比べるとこちらは,編集委員会による厳密な編集方針の下に執筆編集が行われているところが異なる。Wikipediaに「インターネット百科事典」という項目があり,そこにはネット上にオープンになったものを含めて多くの百科事典,専門事典が紹介されている。英語版Wikipediaにはさらに多くのものが紹介されている。

KO研は伝統的な図書館情報学や知識組織論の理論や手法を学ぼうとするが,同時に,こうしたオープン化の動きにも目を向けようとしている。同じくオープンドキュメントの考え方が示されているものとして次のものがある。



これについても,本ブログで紹介している。アリゾナ大学名誉教授のマーティン・フリッケ氏の著作Artificial Intelligence and Librarianship: A Note for Teaching, 2nd ed.の日本語訳である。いずれもCC BY 4.0というライセンスの下でオープン化している。これは,本書の制作に関わるクレジット表記を残しておけば,これを複製したり,改変したり,再配布したりすることは自由ということを意味する。

原著者がなぜこのようなライセンスを選んだのか詳しいことは分からないが,筆者も含めてすでに第一線からリタイアする年齢になったときには,今後の斯界の発展に貢献できればよいという心理になることは理解できる。そう言えば,先ほどのIEKOの編集責任者であるコペンハーゲン大学のビアウア・ヤアラン氏はLIS,IS,KOの分野で多数の論文を書いている人だが,一冊の単著も公刊していない。この人のまとまった著作を読みたいという気がするが,今のところはそうした論文から選んで読むほかない。だが,彼がIEKOの編集を行い,そこに多数の新しい概説的な項目を書いているのを見ると,これらを読むことで彼の考え方を理解することができるのではないかと思われる。つまりこの人も知のオープン化を積極的に進めようとしているのである。

ユネスコのオープンサイエンスとは何か


さて,以上が序論的な内容でここから本論に入る。


オープンドキュメントという言葉を使ってきたが,全体のテーマはオープンサイエンスとなっている。またオープンアクセス(OA)やオープンデータなど類似の言葉がある。学術情報の世界でオープン化を問題にする議論の中心は電子ジャーナルのアクセスをめぐるものであり,特定の出版者や学会が寡占的に世界の学術論文流通を支配する状況が生じていることに対して,その対策としてゴールドOAやグリーンOAといった手法が提案されてきた。グリーンOAは著者自らがエンバーゴ期間後にオープン化するものであるのに対し,ゴールドOAは最初からオープン化された雑誌に登録料を払って投稿するものである。出版費用を誰がどのように負担するのかが問題になる。グリーンOAは雑誌の購読者が払うのに対して,ゴールドOAは著者が払うものである。その裏返しで,「ハゲタカジャーナル (predatory journal) 」などと呼ばれるメディアが出現し,オープンアクセスジャーナルを標榜しながら,査読レベルを下げて高額な掲載料を取る状況もある。

図書館にとっては,毎年の講読料がどんどん高額になることで,契約できずその結果アクセスできない雑誌が増えるという問題があり,紙のものならどんどん蓄積されるのにサブスクリプションの雑誌が利用できなくなる問題もある。そして知の世界が特定の出版者が所有するメディアの比重が大きくなる寡占化の問題をどのように考えるかが問われる。近代につくられた学術知の配布流通過程に異変が起きている。図書館は知の世界が良き知の獲得をめぐる競争原理によって支えられることを前提に成り立ち,それを支える学術情報流通システムの存在を前提として成立してきた。しかしながら,この状況はその延長に現れながら似て非なるるものであり,経済原理が学術知の評価システムを捻れさせている。

このことは図書館の立ち位置をも大きく変える可能性がある。これまで,知の質の保証に関わるものを挙げると,まず著者がいて,著者が所属する機関,所属して査読誌を出している学会があり,ときには学術論文を出している出版社があり,関連して,その知を媒介して外部に報知するジャーナリズムあった。さらには,知的生産物のメディアに識別子(ISBN,ISSN,DOI)を付与する機関や知の保存機関(図書館,文書館,博物館)の役割も重要だった。このうち,図書館はかつてから学術の世界を上流として,上から流し込まれる情報を下流の利用者に流すための仕組みにとどまらない機能をもってきた。選書や資料保存による蔵書構築,OPAC等による資料組織化,利用者の要望による調査方法の提示(レファレンスサービス)により,ダムのように水量調節をおこなってきた。この調節機能は,紙メディアがデジタルメディアに変貌するときに,図書館まで行かなければアクセスできなかったものが,どこからでもオンラインアクセスできれば各段に使い勝手が上がるから,単なる量的な調節に関わらない質的な影響を与えることになる。ここにAIが入るとさらに変化することになるが,その点はここでは論じない。

NDLは大規模な蔵書のデジタル化だけでなく,その深いレベルのメタデータ付与,全文テキスト検索機能を提供し,またWARPでのインターネット資料の収集,電子書籍や電子雑誌の収集(オンライン資料納入制度)を実施中である。これらは,知のアクセスに大きな影響を与えつつある。
 
図書館が大きくオープンサイエンスの動きに対して何が可能なのかを考察しておこう。最初に,ユネスコが2021年11月23日第41回ユネスコ総会採択で採択した「オープンサイエンスに関する勧告」(文部科学省訳)での議論を見ておこう。たとえば,その冒頭の部分で「オープンサイエンスは、科学コミュニティの間における科学的知識の共有の促進を助長するのみならず、伝統的に過小評価されてきた又は除外されてきた集団(女性、少数民族、先住民の学者、相対的に不利な国及び言語資源の乏しい国出身の学者等)の学問的な知識の吸収及び交流を促進し、並びに各国及び地域の間の科学の発展、基盤及び能力についてのアクセスの不平等を減らすことに貢献すべきであることを認め」とある部分は,図書館の課題と密接に関わる。つまり,これまでのサイエンスが科学コミュニティというマジョリティを中心に展開してきたことに対するアンチテーゼが主張されている。

これはユネスコという国際機関の特性上自然なことだろうが,ビッグサイエンスが主流の学術からするとオルタナティブな考え方ということになる。学術情報流通の考え方は,主要なジャーナルによって重要な情報が流通するから効率的な流通を目的とすることになる。ところが一旦ジャーナルによる流通が最善のものではないかもしれないという仮定の下にこれを見直すことが必要という立場に立てばそのあたりが変わってくる。次のオープンサイエンス知識の定義を見てみよう。

まずここには,知識の実体が「科学的出版物、研究データ、メタデータ、オープン教育資源、ソフトウェア並びにソース・コード及びハードウェア」とされてように,通常の学術論文よりもかなり広い範囲のものが含まれている。また,黄色でマーキングしたように,「開かれたアクセス」「パブリック・ドメイン」「オープンライセンス」,「無償」といった条件の下に,「全ての関係者(居所、国籍、人種、年齢、ジェンダー、収入、社会経済的事情、職業段階、学問分野、言語、宗教、障害、民族若しくは移住資格又は他の理由のいかんを問わない。)」に対して「直ちに又は可能な限り速やかに提供」することを挙げている。これはすべての人がサイエンスの担い手であることを宣言するものである。

図書館が知の生産者と知の利用者のあいだに立つ存在であるとされるが,すでにここには,知の流通においては生産者と利用者の区別は曖昧であり,生産者は利用者であるし,利用者は即生産者に転ずることが想定されている。そうした媒介的作用をもつ図書館のなかでも,NDLは特別な存在である。次にそれを見ておこう。





2024-11-02

新著『知の図書館情報学―ドキュメント・アーカイブ・レファレンスの本質』(1月7 日初刷り修正一覧)

2024年10月30日付けで表記の本が丸善出版から刊行されました。11月1日には店頭に並べられたようです。また,丸善出版のページAmazonでは一部のページの見本を見ることができます。Amazonではさらに,「はじめに」「目次」「第一章の途中まで」を読むことができます。

2025年1月に増刷版発行の予定です。その際に修正点があったので、最後に一覧表を示しました。

本書の目次は章タイトルとコラムタイトルしかないあっさりしたものなので,詳細目次を掲げておきます。

==詳細目次=============================

『知の図書館情報学−ドキュメント・アーカイブ・レファレンスの本質』詳細目次

はじめに 

第Ⅰ部 知識資源システムの構成要素と関係

第1章 知識資源システムとはなにか
1.1 図書館情報学における知識資源
1.2 ⻄洋思想における図書館の位置づけ
1.3 日本の近代化と知識の獲得
1.4 カノンの変遷とアーカイブ
1.5 知識資源システム、情報リテラシー、独学
第2章 知識資源の多元的なとらえ方
2.1 知識と知識資源
2.2 客観的知識論
2.3 データ,情報,知識,知恵
2.4 ドキュメント
第3章 知の関係論としてのレファレンス理論
3.1 他者の言葉を利用する
3.2 レファレンスの理論構築に向けて
 レファレンスとは何か
 言語・記号のレファレンス
 分析哲学の指示理論
 言説と著作のレファレンス
3.3 レファレンスツールとレファレンス理論
 レファレンスツールの類型
 指示理論の適用
 書誌的な参照関係の拡張
3.4 ネット情報源への展開
 データベースの可能性と限界
 ハイパーリンクと Linked Open Data
 識別コード
 引用ネットワーク
 インターネット・アーカイビング
3.5 レファレンスサービス再考
 レファレンスの拡張
 今後のレファレンスサービス
3.6 おわりに
コラム1 「メタファーとしての図書館」
迷宮、バベルの図書館
夜の書斎とアルシーヴ
AI 図書館とシュワの墓所

第Ⅱ部 知識資源システムの様態

第4章 知のメディアとしての書物:アナログ vs.デジタル
4.1 メディアの身体性
4.2 コンテナとコンテンツ
4.3 書物はなぜ重要なメディアたり得ているのか
 文字言語の特性
 書物の特性
4.4 電子書籍としての拡張
4.5 制度としての電子書籍ー国立国会図書館の動き
 オンライン資料納本制度
 国立国会図書館デジタルコレクション
4.6 書物の知的リンク構造について
4.7 書物のメディア変遷
第5章 知は蓄積可能か:アーカイブを考える
5.1 尊徳思想のアーカイブ
5.2 ⻄洋人文学における書物の特権性
5.3 人文主義における図書館の役割
5.4 知のレファレンス:理念と方法
5.5 デジタルヒューマニティーズと新文献学(new philology)
5.6 おわりに
第6章 ドキュメントとアーカイブの関係ーニュートン資料を通してみる
6.1 アーカイブとは何か
6.2 アーカイブズとドキュメントとの関係
6.3 ニュートン資料に見る知のアーカイブ
 ニュートン像の変遷とアーカイブズ
 ニュートンが残したもの
 ニュートンのアーカイブズ
 ドキュメントにみるニュートン研究
6.4 ニュートン関係アーカイブの特徴
コラム2「図解・アーカイブの創造性」
アーカイブの過程
ライブラリーの過程
ニュートン研究における創造性
第 7 章 国立国会図書館による知識資源システムの展開
7.1 国立国会図書館を取り上げる理由
7.2 ナショナルな知識資源プラットフォームの形成
 日本全国書誌と NDL サーチ
 出版流通の情報 DB
 出版流通と図書館のデータベース
 CiNii Books とカーリル
 知識資源プラットフォームの概要
7.3 知識資源プラットフォームの拡張
 Google Books の衝撃
 デジタル化を睨んだ書籍のナショナルアーカイブ構想
 NDL のデジタル化戦略
 オンライン資料の納入と館外送信
7.4 知識資源と図書館
 デジタル環境の知識資源
 コレクションを知識資源に変える
コラム3「函館図書館,天理図書館,興風図書館:地域アーカイブの原点」
函館・天理・野田興風
「舌なめずりする図書館員」
戦後図書館の隘路

第Ⅲ部 知識資源システムへの図書館情報学の射程

第8章 書誌コントロール論から社会認識論へ
8.1 書誌コントロールとは何か
8.2 イーガンとシェラの理論
8.3 新しい社会認識論
8.4 LIS における社会認識論の展開:ドン・スワンソン
8.5 パトリック・ウィルソンの社会認識論
8.6 ポストトゥルース時代の社会認識論
コラム4「知識組織論(KO)のためのオンライン専門事典」

第9章 探究を世界知につなげる:図書館教育のレリヴァンス
9.1 デューイと教材,学校図書館
9.2 探究と世界知
 探究とは何か
 人文主義のクリティックとカリキュラム
9.3 関係概念としてのレリヴァンス
 シュッツのレリヴァンス
 レリヴァンス概念の展開
 サラセヴィックのレリヴァンス論
9.4 戦後学校図書館政策のドメイン分析
 ドメイン分析とは何か
 教育課程と学校図書館の関係
 図書館教育のレリヴァンス
9.5 世界知のためのカリキュラム
 教権という桎梏
 探究から世界知へ
9.6 おわりに
コラム5「戦後学校図書館と知識組織論」

知の図書館情報学に関する文献案内
あとがき
注・引用文献
索引
==詳細目次終わり==========================

この目次を見るだけでも,多様なテーマを多様な方法で多様な対象をもとに論じていることがわかるかと思います。全体の流れは,第Ⅰ部は「知」とはなにか,それを図書館情報学でどう扱うべきか,その際にドキュメントやアーカイブ,レファレンスといった概念を補助線として使用することによって見通しがよくなることを述べています。第Ⅱ部では,それらの補助線を使って,書物とは何か,それを蓄積することの意義について述べ,ニュートン関係の資料が多様な性格をもつことについて科学史の知見をもとに論じます。また国立国会図書館のナショナルな書誌コントロールがデジタル化によって変貌しつつあることなどを取り上げます。第Ⅲ部では,まず20世紀の図書館情報学で書誌コントロールが重要な理論であったことから始まり,それが世紀を超える頃に社会認識論への展開を示す過程について述べます。最後の章はドメイン分析という方法を日本の戦後教育改革における学校図書館政策に適用してうまくいかなかった理由を探ります。

どれひとつとっても日本の図書館情報学ではほとんど論じられてこなかったものなので,面食らう読者も多いと思います。補う意味で,コラムを5本立てて,分かりやすく具体例を解説することも行っています。

執筆の背景

この本は、『アーカイブの思想ー言葉を知に変える仕組み』(みすず書房, 2021) の出版後に、求められて書いたり、お話したりした内容をまとめたものです。ここ数年間で学校図書館論アーカイブ論を二本の柱として世に問うことを考えてきました。また、『図書館情報学事典』(丸善出版, 2023)の編集に携わってきたこともあり、図書館や図書館情報学のことを考える際の理論的枠組みが弱いことを感じてきました。かつて、『文献世界の構造ー書誌コントロール論序説』(勁草書房, 1999)という本を書いて、この領域における理論書として異彩を放っていたことは確かでしたが、その後、その方面を追究することは怠っていました。その意味では、本書は四半世紀ぶりの改訂版といえないこともありません。そういえば、アレックス・ライト『世界目録をつくろうとした男―奇才ポール・オトレと情報化時代の誕生』(みすず書房)が最近刊行されたのも偶然ではなく、このあたりは一つの流れになっています。

それは何か。一言で言えば、知のコミュニケーションということです。「知」とは「知識」「情報」「データ」などの上位概念と考えていいのですが、図書館情報学はこれらを「資源」と捉えてきました。「知識資源の組織化」とか「情報資源論」などという用語が使われます。では知と知識資源や情報資源はどのように違うのか。知を扱う学問として哲学があります。哲学は、人は世界をどのように見ているのかというように基本的に個人の認識から出発する学問です。哲学では、認識は一人ひとりのものであり、その結果が資源化されて利用されるというような発想にはなりません。ここからわかるように、資源化するためには何らかの別の操作が必要で、図書館ではこれを資料というパッケージとして扱うことが一般的でした。図書や雑誌論文、視聴覚資料といったものです。こうした資料を利用しやすいように分類したり、目録を作成したり、図書館に排架したりするわけです。また、こうした資料を利用者に提供するための方法としてのレファレンスサービスや読書案内、通常の資料では難しい人ためのメディア変換や物理的保存のためのメディア変換といった手法やスキルが図書館情報学の中心でした。そのための方法の開発はすでに1世紀以上の歴史があるわけです。図書館(情報)学は知を図書とか雑誌とか、DVDとかに納められているものをメタデータを操作することによって扱います。直接中身をいじらずにパッケージのラベルを操作することで、知を扱っていることにしていました。

ところが、20世紀末からの情報ネットワーク社会の到来によって、大きく変貌することを余儀なくされます。ネットワークにおいて扱われる知は、パッケージ毎扱うよりも、中身が見える形で扱われるようになります。このブログでも中身そのものが見えます。こうなると、パッケージ操作はいかにも煩わしく、すべての知はネットワーク上で扱う方がよいということになります。実際、今、ネット上で生じているのはそういうことです。まだ紙媒体の図書や雑誌、新聞があります。しかし、これはそうしたものに慣れ親しんできた世代が市場を支えているから出されているのですが、時間の問題だとも思われます。(個人的には書物というメディアについて紙媒体の優位性は明らかで、なくなることはないと考えますが、市場で取引される以上、どんどんシェアが小さくなるでしょう。)

図書館情報学はネット社会に入る以前から知を資源として扱う分野でした。それはこの分野が他の関連領域に対してもつ最大の優位性です。しかしながら、この分野は図書館という場における知識資源の扱いばかりしか見てこなかったことも事実でその意味で歯がゆい部分もありました。本書はその意味で、知を資源化したあとの扱いではなく、知とは何か、知を資源化するとはどういうことかも含めて、この分野が他の学術領域とどのような関係になるのかについて考察しようというものです。

この問いに基づき書き進めている最中に、同じような問いを深く広いレベルで議論している一連の論考があることを知りました。それが、本書の「コラム4」で紹介した「知識組織論事典(IEKO)です。その意味では、本書はこの事典で本格的に展開される知識組織論の入門書的な位置づけにもなります。そのこともあり、この事典の読書会を企画して、図書館情報学の基礎理論を皆で学ぼうという「知識組織論研究会(KORG_J)」の呼びかけにもつながりました。

本書は今後の図書館研究、図書館情報学研究の出発点になることを意図しています。SNSでのフェイク情報の存在が大きな問題になったり、AIが実用段階に入ったことからもわかるように、ネットで知が扱われていますが、その知はデータの集合体で構成されています。本書の第2章で次のDIKWピラミッドを扱いますが、これはデータ→情報→知識→知恵という過程で上に行くほど知の行為が精選されて一般化してい

くという考え方で、もっとも基本的な部分にデータがあります。しかしながら図書館情報学ではこのピラミッドモデルはマーティン・フリッケによって批判されます。今のAIもデータから知識や知恵が生み出されるということからこの考え方を採用しているとも言えますが,どこに問題があるのか、本書とともに考えてみてください。



===============================

初刷り修正点

p.67 「4.7 書物の知的リンク構造について」⇒「4.6 書物の知的リンク構造について」
p.69「4.8 書物のメディア変遷」⇒「4.7 書物のメディア変遷」
p.109  6行目〜18行目「英国の標準的な事典である....確認している。」 削除
p.160 「8.6 パトリック・ウィルソンの社会認識論」⇒「8.5 パトリック・ウィルソンの社会認識論」
p.164 「8.7 ポストトゥルース時代の社会認識論」⇒「8.6 ポストトゥルース時代の社会認識論」
p.198 13行目「そこに研究が立ち入ること厳しく規制した」⇒「そこに研究が立ち入ることを厳しく規制した」
p.198 15行目「「カリキュラム」が区別することが」⇒「「カリキュラム」とを区別することが」
p.209 2行目 「20. Gleoria J. Leckie」⇒「20. Gloria J. Leckie」
===============================

その後の修正点

p.85 20行目 「アイディアを示すこと学校できる。」⇒「アイディアを示すことができる。」

===============================

お知らせ

本書と関わって次の書籍が同じ出版社から刊行されています。

パトリック・ウィルソン 著 齋藤泰則訳
知の典拠性と図書館—間接的知識の探究
丸善出版
2024年09月

原書名:Second-Hand Knowledge: An Inquiry into Cognitive Authority(1983)

この本は,本書の第8章で言及している20世紀後半の図書館情報学研究者パトリック・ウィルソンの三部作の掉尾を飾る一冊です。




2024-10-25

なぜこの本を翻訳したのか:生成AIと図書館(2)

 マーティン・フリッケ著『人工知能とライブラリアンシップ』を1ヶ月で翻訳した。できた訳稿は全部で40万字,大判で400ページ近くある大きな本になった。かつてなら1年くらいかけないとならないものが短期間でできたのは,AIの力を借りたがゆえである。翻訳ソフトの能力が各段にアップしたと感じたのは,ここ2〜3年のことだ。実は,まもなく発売になる『知の図書館情報学』の8章,9章で外国の理論を紹介している部分についても,これを使ったことで執筆が進んだ。また「知識組織化研究会(KORG_J)」においても利用している。もう憚る必要がないほどに活用せざるをえないものがある。何しろ,そのまま日本語として読める文章を出力してくれるのだ。まだ誤訳はあるにせよ,その領域に精通していれば,おかしなところを自分で容易に修正できる。だから,この本の翻訳についても,それほど苦労はしなかった。

前回,書いたように,作家の文体を真似たように見える文章もよく見ると,何か変ということは言える。同じことを何度も繰り返しているからである。しかし作家も人によるが,繰り返すことも含めて自分の文体とするという考え方もある。しかし,翻訳となれば原文に寄り添う訳だから,少しの言い換えは問題にならない。何よりも著者が曖昧性を拝した論理的文章を書くのに長けた人であることに助けられたということは言えるだろう。

まず,著者がどういう人かを紹介する前にこの人のFrickéという姓の語尾をどう表記すべきかに少し悩んだ。このアクセント記号(アクサンテギュ)はフランス語で用いられ,通常は「エ」の音を示すと理解されている。たとえば,シネマはcinémaである。ところが,英語圏でこの音は「イ」と聞こえることも多い。たとえば。saké(酒)、Pokémon(ポケモン)は「サキ」「ポキモン」と発音する人が多い。たぶん,英語でeは弱いか聞こえないので多くの人は慣れないのだろう。フリケとするのが原音に近いのかもしれないが,小さな「ッ」を入れることにした。この方が日本人には発音しやすいからである。

フリッケ氏について

著者はアリゾナ大学情報学部名誉教授ということである。私にとっては,『知の図書館情報学』の第2章で扱ったDIKWピラミッドという概念を痛烈に批判した人というイメージだった。これはデータから情報が生まれ,情報から知識が生まれ,知識から知恵が生まれるという積み重ねモデルであり,LIS関係者も何となく信じていたところがある。しかし科学哲学の議論をベースに考えれば,たとえば科学的知識は観測データだけで生まれるものではなくて,すでにある情報や知識をベースに仮説が組み立てられ,それに基づきデータが集められることで検証され確定していく。決して下から積み重ねられるわけではない。このある意味で当たり前のことをずばり指摘していたところが印象的で,他の著書を読んでみたくなった。彼にはLogic and the Organization of Information(Springer, 2012)という本があり,Google Booksで全体に目を通すことができる。また,彼の大学のHPで,リンクされていたオープンデータのこの本を提供してくれている。

フリッケ氏の研究分野は「論理と図書館学」「暗号技術」「機械学習」ということである。もともと哲学を専攻したことがこうした論理学をベースにした図書館や情報技術への関心につながっている(文末注参照)。そしてプログラマーとしてのキャリアがあって,コンピュータ技術にも詳しい。彼は,図書館情報学と哲学,そしてコンピュータサイエンスの橋渡しのような立ち位置で仕事をしてきた。日本では他分野からこの領域に入って来た人はおうおうにして,この領域での反応の鈍さから,自分の領域から離れずにいることが多かったし,場合によっては新しい学会をつくってそちらで研究発表する例も多々見られた。アメリカでもそういう傾向はあるが,人によっては図書館ないし図書館情報学の発展にかかわろうとする人もいた。著者もそういう人の一人である。彼が,図書館情報学や情報学ではなく,ライブラリアンシップという領域名を使い続けているのもその現れである。

今回,他方ではヨーロッパの知識組織論事典の読書会をやり始めた。こちらは,LIS正統派の枠内にある,分類や主題,情報検索,索引,書誌,オントロジーなどの最近までの展開をきちんとレビューしておこうと考えてのものである。日本でもある程度のフォローはされている領域であるが,私自身はそういう技術領域と社会的・歴史的なものとの関係を理論的に把握しておきたいということがあった。そのために,社会認識論やドメイン分析などで深く幅広い議論が行われているこの事典を取り上げた。そうした動向と大規模言語モデルとがどのような関係になるのかは最初からもっていた疑問である。


本書の主張

フリッケ氏の論は,分類法や件名法のようにテキストに対して人的な処理をする手法,そして,テキストから取り出した文字列を機械的に照合する従来の情報検索の手法,そして,それとは異なってテキストから取り出したトークンやその集合体の相互関係をベクトル空間で表現してその関係を数値計算によって学習させるAIの手法,これら三者の比較という視点がはっきりしている。生成AIと呼ばれるものはそこに,用いられる言語ベースの規模の大きさと深層学習というプロセスが加わることで,「意味」が表現されることが重要である。それは,従来のIRシステムが語と語とのマッチングによってクエリとの関連を見ていたのに対して,各段に人間の学習に近いものが実現されている。ただし,著者はここでチョムスキー理論との関係についても述べている。チョムスキーは人間の言語能力は生得的なものであるとして,人はそのもって生まれた能力(生成文法)をもとにして外的世界から学んで言葉を獲得していくとした。それに対して,生成AIにそうした能力があるのではなくて,多数の言語の使用例を多次元で関係づける高速計算が一見すると意味の理解や意味の形成を可能にしているように見せているだけであるという。

生成AIにさまざまな落とし穴があることはこれまでも指摘されてきたことではある。(なお,2023年にチョムスキー本人が生成AIは「凡庸な悪」だと発言をしたことが伝わっている。)フリッケ氏はそれをひとつひとつていねいに指摘する。指摘されるのは,幻覚(ハルシネ—ション),フェイク,知的財産権に関わる問題,プライバシー,サイバーセキュリティ,透明性の欠如,環境コスト,推論に弱いなどの点である。総じてAIがもつバイアスをどう考えるについて,6章から9章までで具体的な例をもって示されている。

その上で,図書館員はどうすべきなのかを述べたのが10章から15章である。ここで,図書館員の役割を「シナジスト(相乗効果の仕掛け人)」「セントリー(監視者)」「エデュケーター(教育者)」「マネージャー(管理者)」「アストロノート(宇宙飛行士)」という5つのカテゴリーに分けて各章で詳しく述べる。シナジストとは,AIをライブラリアンシップにうまく組み込むことによって,AIの能力をライブラリアンシップの手法で向上させられるという役割のことである。セントリー(監視者)は,AIがもたらす進歩につきものの問題,とくに倫理的問題をチェックする役割である。エデュケーター(教育者)は,情報リテラシーやデータリテラシーへの対応である。マネージャーは図書館運営においてAIをうまく取り入れることである。最後のアストロノート(宇宙飛行士)は,図書館が知識の宝庫であることでAIを駆使した知識の創造などに関わるということを言っている。

というように,著者は,生成AIの可能性と限界を見定めた上であくまでも図書館員に寄り添ったかたちで論を展開している。とくに最後のアストロノートとしての図書館員というのは,地上で見ていたのではわからないことが宇宙空間から見ることで理解できることがあるように,知の空間のアストロノートもまた既知と既知をつなぎ,未知のものを発見し,既知と未知の橋渡しをするような役割を期待している。そのことは日本の図書館員にとってもよきメッセージになるだろう。

*なお,彼がAI技術とその哲学についての専門家で,機械学習の認識論についての専門的知見を披露している人であることは次の対談を読むとわかる。







自己紹介詳細版(2025年4月6日)

 【自己紹介】

職業 文筆業(歴史,教育文化方面)

場所 つくば市, 日本

自宅物置の軒先にできたアシナガバチの巣

アシナガバチの巣

つくば市小田に住んでいます。小田は関東平野の東側の壁に位置する自然豊かな里です。この地であった出来事,考えたことなどを書き連ねたいと思います。研究方面の情報は、https://researchmap.jp/oda-seninにあります。



【最近の関心】

・アーカイブ(archive)に関わる歴史、思想、言語、教育、情報など

・図書館及び図書館情報学研究の拡張

・日本の教育、教育課程、学校図書館

・地域アーカイブの実態(とくに福島、沖縄、北海道)

・つくば市小田の歴史的位置付けと関東内海の関係


【自著紹介(単著)】 

根本彰著 『文献世界の構造:書誌コントロール論序説』勁草書房1998.

根本彰著 『情報基盤としての図書館』 勁草書房 2002.

根本彰著 『情報基盤としての図書館・続』 勁草書房 2004.

根本彰著 『理想の図書館とは何か:知の公共性をめぐって』 ミネルヴァ書房 2011.

根本彰著『場所としての図書館・空間としての図書館:日本、アメリカ、ヨーロッパを見て歩く』学文社 2015.

根本彰著『情報リテラシーのための図書館:教育制度と図書館の改革』みすず書房 2017.

根本彰著『教育改革のための学校図書館』東京大学出版会 2019.

根本彰著『アーカイブの思想—言葉を知に変える仕組み』みすず書房 2021.

根本彰著『図書館教育論:学校図書館の苦闘と可能性の歴史』東京大学出版会 2024.

根本彰著『知の図書館情報学―ドキュメント・アーカイブ・レファレンスの本質』丸善出版, 2024.


【自著紹介(共著・編著)】 

マイケル・H・ハリス著, 根本彰編訳『図書館の社会理論』青弓社, 1991.

三浦逸雄, 根本彰共著『コレクションの形成と管理』 (講座図書館の理論と実際 第2巻)雄山閣出版, 1993.

三浦逸雄監修,根本彰他編『図書館情報学の地平:50のキーワード』日本図書館協会,2005.

根本彰編『図書館情報学基礎』東京大学出版会 2013.(シリーズ図書館情報学1)

根本彰、岸田和明編『情報資源の組織化と活用』東京大学出版会 2013.(シリーズ図書館情報学2)

根本彰編『情報資源の社会制度と経営』東京大学出版会 2013.(シリーズ図書館情報学3)

石川徹也, 根本彰, 吉見俊哉編『つながる図書館・博物館・文書館:デジタル化時代の知の基盤づくりへ』東京大学出版会, 2014.

根本彰監修, 中村百合子他編『図書館情報学教育の戦後史』ミネルヴァ書房 2015. 

根本彰・齋藤泰則編『レファレンスサービスの射程と展開』日本図書館協会 2020.

日本図書館情報学会編『図書館情報学事典』丸善出版, 2023.(編集委員長)

相関図書館学方法論研究会(川崎良孝,三浦太郎)編, 吉田右子, 和気尚美, 金晶, 王凌, 根本彰, 中山愛理著『図書館思想の進展と図書館情報学の射程』松籟社 2024年4月(《図書館・文化・社会》第9巻)「探究を世界知につなげる:教育学と図書館情報学のあいだ」を執筆


【自著紹介(翻訳)】 

バーナ・L・パンジトア著, 根本彰他訳『公共図書館の運営原理』勁草書房 1993.

ウィリアム・ F・ バーゾール著, 根本彰 [ほか] 訳『電子図書館の神話』勁草書房, 1996.

アリステア・ブラック,デーブ マディマン著, 根本彰, 三浦太郎訳『コミュニティのための図書館』東京大学出版会, 2004.

リチャード・ルービン著, 根本彰訳『図書館情報学概論』東京大学出版会, 2014.

アンソニー・ティルク著, 根本彰監訳, 中田彩, 松田ユリ子訳 『国際バカロレア教育と学校図書館ー探究学習を支援する』学文社 2021.

アレックス・ライト著, 鈴木和博訳, 根本彰解説『世界目録をつくろうとした男:奇才ポール・オトレと情報化時代の誕生』みすず書房, 2024年5月

マーティン・フリッケ著 根本彰訳『人工知能とライブラリアンシップ』2024年10月https://oda-senin.blogspot.com/2024/10/blog-post.html (オープンデータ)


ライブラリアンシップとは何か:生成AIと図書館(1)

 ノーベル物理学賞と化学賞がどちらも生成AIに関連したものであることから,またまたこの技術に注目が集まっている。ノーベル賞は2020年代になってから,科学分野の基礎理論よりも応用技術や社会的インパクトのある方法的発見に目が向けられるようになった。19世紀末に亡くなったアルフレッド・ノーベルの遺産で始まったノーベル賞が想定した学術的なジャンルという概念はとうに古びたものになり,理論と技術と社会との関係がかつて以上に相互的なものととらえられているのかもしれない。その意味で,今年のノーベル平和賞は日本原水爆被害者団体協議会(日本被団協)という国際的にはほとんど知られていなかった日本のNPO(この団体は法的性格を公表していないようだが,一般的意味での非営利組織としておく)が受賞し,経済学賞にトルコ出身でMITに所属するアセモグルを含めた社会経済学者3名が受賞したことを含めて,国際関係,経済,社会が新たな展開に入ったことを示す兆候に対して,アルフレッド・ノーベルの最初の理念に戻った観点から受賞者を選択したのではないかと思われる。

生成AIについてはこれが私たちの生活の深いところから影響を与えるものとなっていることは改めて言うまでもない。図書館情報学においても,これをどのように用いるのかについての議論はすでにいろいろ書かれたり,論じられたりしている。そこでは他の職業領域と同様に,図書館員はAIに取って代わられるのか,というのが中心的な問いになっている。ここでは,マーティン・フリッケ著(根本彰訳)『人工知能とライブラリアンシップ』を選んで日本語訳を作成した経験から何が言えるのかについて考えてみたい。

エミリー・ディキンソン風に表現したライブラリアンシップ

まず,ライブラリアンシップ(librarianship)という言葉そのものが耳馴染みがないと感じる人がいるだろうから,これから説明する。ライブラリアンが図書館員のことであることは想像がつくだろうが,ライブラリアンシップとは文字通り訳せば「図書館員魂」とでもなるような用語で,英語圏の図書館界では今でもよく使われる。かつて使われた図書館学(library science)も同じような意味があるが,そちらはもっと堅い感じである。ライブラリアンシップは図書館員がもつ知識とスキルの全体を指すややくだけた言葉である。これを使うのはベテランの図書館員が多いし,学術的には図書館情報学(library and information science)が使われる。また,情報学(information science)も同じ領域を指す用語という考え方をする人たちも多い。それは言うまでもなくこの領域が情報技術と切っても切れない関係があるからである。ライブラリアンシップを今でも使う図書館員が多いのは,情報技術に還元されない部分を強調したいからだろう。

本書302ページに示されている,「ライブラリアンシップをエミリー・ディキンソン風に表現する」というプロンプトに対して生成AIが作成した回答の訳をみてほしい。

「図書館員は,その静かな優雅さをもって,書かれた言葉の番人を務める。彼女は書架の間を歩き回り,知識の優しい守護者となる。彼女が本を取り出すたびに,彼女の目の前に新しい世界が広がる。彼女は真実の探求者であり,言語の愛好家であり,アイデアの守護者だ。彼女の手は,長年ページを繰ってきたためタコだらけだが,彼女の精神は壊れていない。彼女は秘密の番人であり,夢の提供者であり,学問の擁護者だ。図書館員は宝であり,知恵と驚異の稀有な宝石だ。」

 ここにはいくつもの興味深い表現が見られる。まず,ここで描かれたライブラリアンシップ像である。前半には,書かれた言葉の番人,知識の守護者,真実の探求者,言葉の愛好家,アイディアの守護者というような表現が並んでいる。よく見れば,どれも同じような概念を言葉を変えて言い換えたように見える。最後にある,秘密の番人,夢の提供者,学問の擁護者も同じだ。要するに,なかなか到達できない書き言葉の世界を扱っていることをこれだけの形容語で表現したということができる。図書館員が書き言葉の管理者であって,その書き言葉は,知識や真実,アイディア,秘密,夢,学問といったものを内包しているから,管理者はこれだけのものを提供できる。そして最後に「宝であり,知恵と驚異の稀有な宝石」という最大限の賛辞を送るわけだ。

そうした図書館員の役割の記述以外にここで表現されているものは,一つは「静かな優雅さ」という言葉である。そのあとに「彼女」とあるように,女性性と密接な関係をもつ。ディキンソンは,19世紀アメリカの女流詩人でピューリタンの上流階級の家に生まれ,早くから詩作に目覚めて,生涯,その修辞的な技巧と内向的でセンチメンタルな表現の詩作をすることで知られていた。(日本語版Wikipediaにかなり長い解説がある。)このあたりの表現はそれを反映しているのかもしれない。ただし,図書館員と女性性をつなげる考え方がフェミニズムの観点から批判されていることは確かだ。(参照:ディー・ギャリソン (田口瑛子訳)『文化の使徒 : 公共図書館・女性・アメリカ社会, 1876-1920年』日本図書館研究会, 1996)ここには,残されているテキストの文化的偏差が反映しているということも言える。

エミリー・ディキンソン肖像画

もう一つは「長年ページを繰ってきたためタコだらけだが,彼女の精神は壊れていない。」という表現だ。前半は図書館員の仕事から来るものなのだろう。後半の「精神は壊れていない」というのをどのように理解したらよいのだろうか。書物の世界に耽溺しすぎることで精神に変調を来すというのは西洋の知的世界では言われていたことは確かだ。作家のなかではヴァージニア・ウルフやカフカ,エドガー・アラン・ポーなどがそうした傾向のあった人と言われる。だから,ここでは図書館員は書物の世界に入ってはいるが,仕事としているので精神に変調を来すことはないという意味なのだろう。

作家の文体とは何かー大規模言語モデルの実験

ともかく,この文章はエミリー・ディキンソン風の文体によって西洋における図書館員というものの(ステレオタイプ的な)特性を言い表しているということができる。このような文体がどのようにして「生成」されるのかについて,詳細なところは公表されていないが,仕組みの大つかみなところはすでにいろいろと解説されている。生成AIの大規模言語モデルがどのように言葉を生成するのかについて,フリッケは本書で,大規模な書き言葉の集積があって,それらを処理単位(トークン)に分割したものを多次元的なベクトルとして数値化・データベース化し,類似度を計算することを繰り返してつくり上げられると述べる。その際に,テキストからの埋め込み(embedding)が行われ,ベクトルはトークンとトークンの関係を確率的に計算する学習を繰り返すことにより,「意味」が形成されるという。おそらくは「文体」もまたそうした確率的関係によって決定されるのだろう。

という説明だけでは理解しにくいので,フリッケに倣って,試しに,ChatGPTに対して,「図書館員の仕事を*風に表現してください」という質問をしてみたところ,次のような結果となった。*に入力したのは,1.与謝野晶子,2.川端康成,3.小松左京である。

1. 図書館員の仕事を与謝野晶子風に表現してください

ChatGPT:

図書館員の仕事は、まるで静かな庭に咲く花々を愛でるようなものです。書物の一冊一冊が、心の奥深くにひっそりと寄り添い、時に熱く、時に冷たく、さまざまな感情を呼び起こします。

訪れる人々は、何かを求めてこの場所に足を運び、その瞳には希望が宿ります。その瞬間、私は彼らの心を受け止め、彼らが探し求める物語へと導く役割を担います。本のページをめくる指先に触れると、まるで詩の一行が静かに流れ出すようで、私自身もその言葉に心を奪われていくのです。

図書館は、言葉が織りなす小宇宙。さまざまな人々の思いが交差し、共鳴しあう場所。私もまた、その中で一つの声として存在し、言葉の力を信じ、ひたむきにその使命を果たしていきます。

この静けさの中に、感動と喜びが満ち溢れ、心の奥に潜む情熱をかき立てられる。私の仕事は、書物を通じて生きる喜びを分かち合うこと。言葉の花を育てることで、訪れる人々の心を彩り続けたいのです。


2. 図書館員の仕事を川端康成風に表現してください

ChatGPT:

図書館員という職は、静寂の中に佇むひとりの旅人のようなものだ。書架に並ぶ本たちは、まるで長い旅路を経て、今ここに集まった思い出のように感じられる。それぞれのページには、遠い国の風景や、忘れられた人々の声が宿っている。

私はその本たちの案内人であり、訪れる人々に物語の扉を開く役目を果たす。彼らの目に浮かぶ期待や好奇心は、私の心にも温かな光を与える。薄暗い図書館の中、静かに本を手に取る音が響き、その瞬間に小さな宇宙が広がるのを感じる。

外の世界の喧騒は遠くに感じられ、ここでは時間がゆっくりと流れている。人々が本に触れることで、心の奥深くにある何かに触れ、過去と未来が交わる瞬間が生まれる。その瞬間に、私は自分自身もまた、書物の中の一ページになっていくのだ。

図書館はただの場所ではなく、思索と感動が交錯する聖域。そこにいることで、私は人間の営みの深さを感じ、また一歩、静かな旅へと誘われていく。


3. 図書館員の仕事を小松左京風に表現してください

ChatGPT:

図書館員の仕事は、まるで無限の宇宙を航海する宇宙飛行士のようなものだ。無数の書物は、銀河の星々のように、さまざまな物語や知識を秘めている。私はその星々の間を行き来し、訪れる人々に未知の世界を紹介する役割を担っている。

静かな書架の間を歩くと、時折、誰も知らない宇宙の秘密が耳をかすめるような気がする。ページをめくる音は、星の輝きが響く音楽のようで、心に不思議な感動を与える。私が手にする本の中には、異次元の思考や未来の予感が詰まっているのだ。

しかし、この空間は単なる情報の集積ではない。人々が訪れ、夢を語り、思索を重ねることで、ここは生きた場となる。図書館は、未来を探るための実験室でもあり、過去を解き明かすための考古学的な現場でもある。

私は、これらの知識の星々を繋ぎ、未来の探求者たちを導く道しるべとなる。やがて、彼らが持ち帰る知識や感動が、新たな宇宙を創造していくのだ。その瞬間こそが、図書館員としての私の存在意義であり、無限の可能性を感じる瞬間でもある。

どうだろうか。見事にそれぞれの作家の特徴を反映した文体で図書館員の仕事が表現されている。しかし,今,文体という言葉を使ったが先ほどの大規模言語モデルの説明に照らし合わせてみると,これを文体といってよいのか疑問も沸いてくる。要するに,それぞれの作家が使いそうな語を組み合わせて出力しているにすぎないのではないかと。

AIがしていることは,言葉と言葉がどのような関係で結びついているのかを確率計算によってつくりあげたベクトルデータベースに対して,プロンプト(質問)が与えられて,それによってつくられたベクトルデータとの一致度の高いものを再構成しているということである。この場合のプロンプトのデータは,「図書館員」,「仕事」,「作家*」である。推測できるのは,「作家*」が使用していたり,その人について書かれたりしたものの膨大なテキスト群があり,そのベクトルデータがつくられる。同様に,「図書館員」,「仕事」についてもデータがある。そして,それらが1つのプロンプトで表現されたときに,3つの言葉に共通する要素の多元的な言語空間が計算によって出力されて,それが文章として示される。

文章はいずれもステレオタイプと言えば言えないこともない。最初に「〜のようなものだ」で始まり,その「〜」にちなんだ経験が語られ,図書館員(あるいは私)がそこで何をしているのかの説明がある。そのときに,それぞれの作家が用いそうな語,表現が連続的に出てくるので,確かにその作家の文体だと思わせる効果がある。ともかく,短い文章ではあるが,文章の流れがしっかりしている。起承転結があるといってもよい。おそらく,ChatGPTは標準でこのような4段落の文体で流れをつくるように仕組まれているのだろう。

本当のところ,「文体」がこのような説明で可能なのかはよくは分からない。文体というのが特定作家が使う確率の高い用語の集合体にすぎないとすれば,ここまでの説明で足りるのかもしれない。しかし,与謝野晶子のものが,「ですます調」で,他の2つが「だである調」であるのは偶然ではないだろうし,単なる用語の集合体というだけではすまない,語と語のつながりに対する「深層的」結びつきがみられる。この「深層」こそがキーワードであり,そこでは思想も知識も文体もが「生成」される。それがたとえ計算に計算を重ねたものだとしても,「人工」「知能」に見えてしまうのだ。

作家の文体についての追加考察

文学における論理についてもう少し考察しておこう。たとえば,与謝野晶子と小松左京のように個性が違った作家の文体で図書館員の仕事を表現したときにどのような違いがあるのかを見てみよう。

まず,図書館員の仕事の特性。

[晶子]図書館員の仕事は、まるで静かな庭に咲く花々を愛でるようなものです。書物の一冊一冊が、心の奥深くにひっそりと寄り添い、時に熱く、時に冷たく、さまざまな感情を呼び起こします。

訪れる人々は、何かを求めてこの場所に足を運び、その瞳には希望が宿ります。その瞬間、私は彼らの心を受け止め、彼らが探し求める物語へと導く役割を担います。

[左京]図書館員の仕事は、まるで無限の宇宙を航海する宇宙飛行士のようなものだ。無数の書物は、銀河の星々のように、さまざまな物語や知識を秘めている。私はその星々の間を行き来し、訪れる人々に未知の世界を紹介する役割を担っている。

仕事の比喩においては,それぞれ,「花々を愛でる」と「宇宙を航海する」となっている。具体的に,晶子は「心の奥深くにひっそりと寄り添い...さまざまな感情を呼び起こ」す書物を求める人々の「心を受け止め,彼らが探し求める物語へと導く役割を担」うとしているのに対し,左京は書物が「さまざまな物語や知識を秘めている」から,図書館員はそれらの「間を行き来し,おとずれる人々に未知の世界を紹介する役割を担っている」としている。図書館員の仕事が,書物の世界に親しんだ上でそれを人々に媒介する役割をもつことでは共通している。これは康成の文体でも同様である。

次に扱うものが「花々」と「星々」,仕事の中身が「心を受け止め,彼らが探し求める物語へと導く」と「未知の世界を紹介する」というような違いに目を向けてみよう。花は書物がもつ感性的な側面,星は書物がもつ知的な側面を強調した表現であり,晶子は,感性的なものを物語世界へとつなげるとするし,左京は「知識の星々を繋ぎ、未来の探求者たちを導く道しるべとなる」とするような違いとなって現れる。これらは,それぞれが作家の個性を反映した論理的な表現であるだけでなく,図書館員の仕事の性格をうまく描いている。文学的な論理の表現の仕方が異なっているだけである。このことを文体と言っていたわけだ。

AIは図書館員のためのツールである

生成AIが日米の4人の作家の表現として示した図書館員の仕事あるいはライブラリアンシップは,書物に関わるという点で共通しているが,その関わり方にはそれぞれ特徴があっておもしろかった。それにしてもなぜこれが可能になるのかについては,今後ともいろんな領域で言及が進むだろう。ただしそういうものを研究というのは少し変な感じもする。生成AIの仕様や具体的なアルゴリズムは人間がつくったものであるからだ。確かに,将棋や囲碁のプロたちはAIを使って「研究」しているらしい。将棋や囲碁のような「論理」と「戦略」の組み合わせを研究するというのは分かる。しかしながら,人間がつくったものがブラックボックス化しているからといって,それを手探りで見ていくというのはおかしくはないだろうか。これが学術研究になるためには,これらをつくっている企業が率先して情報を開示する必要があるというのが,従来のこうしたもののとらえ方だった。

だが,これは人間がつくった法律とか政治の仕組みとかが研究対象になるのと同じなのかもしれない。個別には目的と方法や運用が言葉で表現できるようなものになっているが,それが相互に絡み合いながら複合化してきわめて複雑なシステムになっている。それを部分的に解明しようとするのが社会科学である。同様に,大規模言語モデルも,人間の手が入っているとしてもそれが複雑になり,かつ,(人手を介さない)自己学習を繰り返している。つまりすでに人知を超えたものになっている。また,法律や政治とまた違った意味で人や社会に影響を及ぼすものになっている。だから研究も必要になるのだろう。

AIにこんなこともできる,あんなこともできるということがよく言われるのだが,ここでもこのように示されると驚異であった。しかしながら,それが図書館員にとっての脅威にならないかというのが多くの関係者の不安でもある。そのことに対して,フリッケは本書で,このツールを使いこなすことが重要だと言うだけでなく,図書館員はもともと情報ストックの管理者であったのだから,AIとユーザーをつなぐことが託された位置付けになることを強調している。そのことについて,に書きたい。







2024-10-20

『人工知能とライブラリアンシップ』の概要紹介

別ページで公開したマーティン・フリッケ『人工知能とライブラリアンシップ』の概要を紹介します。この本は,最新の生成AIの技術的知識を,きわめて高い水準を保ちながら分かりやすく解説し,それが図書館員の仕事とどのような関係になるのかを説明したものです。生成AIは大規模言語モデルを用いて,従来の情報検索や全文検索とは異なる知への新しいアプローチを提供していて話題を集めています。図書館員の仕事も文献の蓄積に対してアクセスすることを支援するものですから,この技術をうまく使うことで大きな力となるはずです。

しかしながら,そこには気をつけなければならない多数の問題があります。それを著者はていねいに記述していきます。全部で15章の本文に付録と用語集,文献一覧を含み,A4判で400ページ近くになる大著です。簡単に読みこなすことは難しいように思われるかもしれません。

全体としては,本文の1章から5章までは生成AIの技術的解説とその特性についての説明,6章から9章は生成AIがはらむ倫理的問題点とそれがライブラリアンシップとどのような関係になるのかの解説,そして10章から15章がライブラリアンシップにとって生成AIをどのように使いこなすべきなのかの話しです。とくに図書館関係の方は10章〜15章を先に目を通すと読みやすいかもしれません。お急ぎの方は,図書館員の役割を概説している10章と将来展望を述べている15章だけでも読むと,著者が図書館にどのような希望を込めているのかがわかります。



<目次>

第1章  知的背景
第2章  チャットボット
第3章  言語モデル
第4章  大規模言語モデル
第5章  大規模マルチモーダルモデル
第6章  評価と将来
第7章  バイアスと不公平
第8章  機械学習とライブラリアンシップにおけるバイアス
第9章  自然言語処理(NLP)はライブラリアンシップに何をもたらすだろうか?
第10章  図書館員にとってどんな機会になるか?
第11章  シナジストとしての図書館員
第12章  セントリーとしての図書館員
第13章  エデュケーターとしての図書館員
第14章  マネジャーとしての図書館員
第15章  アストロノートとしての図書館員


第1章 知的背景 

今起こっているAIについての技術的進展の最先端がどのようなものであり,そこで使われている技術の概要についての紹介。とくにライブラリアンシップにとって重要なテキストやそこへのアクセス問題(テキスト読み上げや機械翻訳,情報検索,アーカイブなど)と今の技術がどのような関係にあるのかについて記述している。また,AIの本質が機械学習にあること,そして,そこで学習のための「教師」がテキストによるトレーニングセットで構成されること,テキスト作成のためのOCR技術の重要性が解説される。教師あり,教師なしなどの組み合わせでトレーニングされ,さらに次の段階として自己教育が可能になる。これが,機械学習のポイントである。

第2章 チャットボット

コンピュータ画面でAIと対話しながら情報を得たり,何らかの指示を出したりするチャットボットの仕組みについての解説。こうしたシステムも初期のプログラム化されたエキスパートシステムから現在の深層学習に変わって大きく進化した。機械との対話が自然であるかどうかを見分けるためのチューリングテストにパスするようなものが現れている。深層学習による機械学習を理解するためには,テキストに現れていない意味(含意)を理解できるようにする必要があることが述べられる。

第3章 言語モデル

ここでは,言語学習がどのように行われるのかについての基本的な理論の解説を行っている。テキストを構成する文字の並びから次の文字を予想するために,確率的に言語のつながりを計算する手法である隠れマルコフモデルという考え方を導入する。シャノンは,英語の文字のシーケンスの確率に着目した。これによってサンプルデータからの学習の方法(ベイビーGPT)が示される。その方法が実際の大規模データで長期間をかけ,評価とフィードバックを含めて実行されてできたものがGPT等の大規模言語モデルである。学習の方法としてベクトルで表現した単語の「埋め込み」を行いそれを修正しながら学習していく。このようにして言語モデルから出力される文は知識や真実と乖離していることも多いが,それらに対して,教師あり学習の微調整や人間の評価者による強化学習によって知識や意味の要素を加えていくプロセスとしてInstructGPTがある。

第4章 大規模言語モデル

こうした言語モデルを大規模に高速に実行する方法について詳細に述べているのが,この章である。ここでは,効果的に言語を処理するために注目すべき語やシーケンスに重み付けをするためのアテンションや並列処理を可能にするトランスフォーマーといった最近開発された技術について解説される。さらに,大規模言語モデルの自己監督機能を使用してモデルを事前トレーニングし,次に微調整を施してモデルを下流のタスクに適したものにしていく過程を繰り返したものが基盤モデルと呼ばれる。基盤モデルはテキストだけでなく,音声,画像,映像などのマルチモーダルなドキュメントを同時に扱うことも可能になっている。こうして現れたのがGPT-3,GPT-3.5,GPT-4などの生成AIである。これらの多くはチャットボットのようなエージェント(質問応答形式)で提供されている。具体的な例として,本(AIと研究図書館のライブラリアンシップ)のアウトラインをつくっているプロセスを示している。こういうLLMの仕組みの解説から,問題点として,幻覚(ハルシネ—ション),フェイク,知財,プライバシー,チョムスキー理論との関係,サイバーセキュリティ,透明性の欠如,環境コスト,推論に弱いなどの問題点を指摘している。

第5章 大規模マルチモーダルモデル

画像や音声,映像を解析して対話的に応答できるLMMはLLMの一種と考えることができる。画像内のテキストや数値を読む,ただし,これを使う際には,マルチモーダルであることによるプライバシーやステレオタイプ,障害者への配慮などの安全面の配慮事項がありうる。LMMを使って説明したり,推論したりする例が多数紹介されている。ルネサンスの絵画を見ての美術史の解説,科学的知識と組み合わせての教育指導案,寿司の作り方の手順の写真から作成順序を推論,外的世界との関係ではロボットに買い物の指示をする事例など。これうして,現実世界とマルチモーダルな関係でつながる可能性が高まった。2024年になると,GPT-4 ターボ(OpenAI),Gemini(Google),Claude(Anthropic)など各社がLMMの拡張版を一斉に発表した。これによってできることはたくさんある。たとえば,スマホで撮影した画像からテキストを抽出すること,二つの画像の違いを見分けること,医療用画像の説明,画像の生成,画像の分類やラベル付け,情報検索の拡張といったものだ。

第6章 評価と将来

AI は主に信頼性とアラインメントの概念を使用して評価する。信頼性は一貫していることであり,アラインメントはモデルの予測や動作が,期待される,望ましい,または意図された結果とぴたりと一致することだ。LMM で何ができるかを理解する方法の 1 つは,一般的なベンチマークを見ることで,ここでは評価のためのツールとしてMT-Bench ,Chatbot Arena,A12 Reasoning Challenge,MMLU などがあり,それぞれの特徴が説明される。さらにコンピュータ コードの作成に特化したベンチマークとしていくつかを紹介している。「汎用人工知能(AGI)」を評価するための ARC-AGIベンチマークというものもある。最後に,カーツワイルの「シンギュラリティ」が起こるかどうかについて,アッシェンブレンナーが行った今後10年の予測記事の紹介があり,2027 年頃までに AGI が登場し,その1年後くらいにそれらを遙かに上回る人工超知能(ASI)が現れる可能性がある。これを最初に手に入れた者に決定的な軍事的および政治的優位性をもたらす可能性がある。AGIからASIへの飛躍の鍵は重み付けにあるので,セキュリティがきわめて重要である。

第7章 バイアスと不公平

ここからは,AIがもたらす倫理的問題について突っ込んだ議論がある。まず,機械学習におけるバイアスとは,事前に設定された変数間の重み付けのことであり,それ自体には倫理的社会的問題は存在しない。また予測バイアスという用語が使われるがそれは予測値と実質値との偏差という意味だ。明らかなバイアス表現は対応すれば排除できるが,自然言語に含まれるバイアスの多くはバイアスと気づかれないままに機械学習の基になっている。また,アルゴリズムは中立的用語でそれ自体にバイアスはない。バイアスをもたらすものがあるとすれば,ソフトウェアの仕様である。ただし,コンピュータの学習や予測は自己監督によることで非経験的であり,それはさらに深層学習で行われることによって「バイアス」が生じることは防げない。機械学習のバイアスに対して知識をもつことが必要で,ここでは分配的正義の意味での公平性について,住宅ローン審査のシステムにおける閾値の設定問題を挙げて論じる。また,ジェンダーバイアス除去,顔認識の拡がりにおけるパノプティコン状況の成立,図書館の蔵書分類問題などについて論じる。AIに含まれる誤報,スパム,フィッシング,法的および行政的プロセスの悪用,不正な学術論文執筆,バイアスなどについてそれが起こる理由を推測できることが大事だ。スマホを使うすべての人はプログラマーであり,図書館員は「情報リテラシー」の専門家である。

第8章  機械学習とライブラリアンシップにおけるバイアス

大規模言語処理に伴うバイアス問題をさらに分析する。とくに,どのようなシステムの動作が,誰に対して,なぜ有害であるか,これらの記述の根底にある規範的推論がどのように行われるのか。機械学習,バイアス,ライブラリアンシップに交差するところがあることを理解する。次に,検索エンジンの特性がバイアスを生み出す問題として,システムがもつステミング,オートコンプリートなどのキーワード修正機能があり,個々のユーザーの個々の検索機会によって作動の仕方が変わることが論じられる。ソーシャルメディアは1日24時間休みなく偽情報,誤情報,虚偽情報を大量に生み出しているが,これらは機械学習が翻訳や文章書き換えなどによってさらに強化しており,学習成果としてバイアスが紛れ込む。ライブラリアンシップの情報組織化において,「文献的根拠(literary warrant)」という概念が疑われて,かつてのツールのバイアスが問われるようになり,LCSH等のバイアスが問題になった。また,文献がネット上に無数にあるときに,「ユーザー的根拠」なのか「文化的根拠」なのかが問われるようになった。機械学習によってこれらの一部を技術的に解決することが可能である。分類という行為は二分する結果をもたらすことで責任を伴う。分類や件名標目,メタデータの選択はすべてある種の文化的行為であるが,どの文化的背景に基づくかの闘争があった。今,それが無秩序に拡がるLMMがツールとなったときに,図書館員が行ってきた議論や積み重ねてきた倫理的判断は役に立つはずである。

第9章 自然言語処理(NLP)はライブラリアンシップに何をもたらすだろうか?

自然言語処理についての技術的解説をすることによって,テキストをいじってLLMを構築する際にどのようなことが起こるのかを理解する。まず前処理を行って,テキストから余分なものを削除し分割したり正規化したりして,処理の最小単位であるトークン化する。その文字列から数値のベクトル (つまりリスト) を生成する。情報検索はクエリの文字列のベクトルとテキストの文字列のベクトルがどの程度類似しているかを評価して行う。類似するが異なる語でも埋め込まれたベクトルは類似性が高いことから検索が可能になる。単語だけでなく,チャンク(章,ページ,段落,文)でも同じことが可能である。また,検索だけでなく,テキストとテキストを対応させる処理(分類,レコメンド,トピックの抽出,固有名の処理)などでも同様であるから,図書館で行っている知的な処理(書架分類,書誌分類,統制語彙,索引法,自動索引,抄録,抜粋,キーフレーズ,キーワード,要約)のほとんどに適用可能である。これらについて一つ一つ解説している。ここで説明されたNLPの技術は,プログラマー (または図書館技術サービス部門) が大規模言語モデル (LLM) を使用し,公開アプリケーション プログラミング インターフェイス (API) を持つものを使用する適切なソフトウェアを作成することで利用可能である。

第10章 図書館員にとってどんな機会になるか?

エドワード・ファイゲンバウム (「エキスパート システムの父」) が,未来の図書館がAI を知識サーバーとして書物と書物が対話することを述べている。これはライブラリアンシップを考えるヒントになる。今,大量のボーンデジタルデータが生み出されビッグデータが問題になっているが,これらを扱えるのはLMMを使いこなすライブラリアンシップである。そのために,図書館員の役割を「シナジスト(相乗効果の仕掛け人)」「セントリー(監視者)」「エデュケーター(教育者)」「マネージャー(管理者)」「アストロノート(宇宙飛行士)」という5つのカテゴリーに分けて次章以降の各章で特性を検討する。ここでは頭出しで,たとえばシナジストは,AIはOCRや翻訳などによって情報アクセスを以前より容易にし知的自由を高める。スマホは情報へのアクセス機会をいっそう向上させる。ユーザーとリソースの仲介においても検索のレコメンドをしてくれる等々である。つまり,AIをライブラリアンシップにうまく組み込むことによって,AIの能力をライブラリアンシップの手法で向上させられるという役割である。セントリー(監視者)は,AIがもたらす進歩につきものの問題,とくに倫理的問題をチェックする役割である。エデュケーター(教育者)は,情報リテラシーやデータリテラシーへの対応である。マネージャーは図書館運営においてAIをうまく取り入れることである。アストロノート(宇宙飛行士)は,図書館が知識の宝庫であることでAIを駆使した知識の創造などに関わるということを言っている。

第11章 シナジストとしての図書館員

図書館における知的自由には,特権(自由権)と請求権的な側面がある。両方の意味での知的自由を保証しようとする。図書館員が多言語環境や古い活字本や手書きの本,オーディオ資料の文字変換,手話からテキストへの変換,翻訳等々を処理しなければならないときに,OCRや文字認識,音声認識,映像処理,翻訳のプログラムが何をしているのかを理解することが重要である。また,ユーザーとリソースをつなぐために知っておくべきことがある。たとえば検索エンジンのPageRankや機械学習が何をしているのか,商用情報検索システムがクエリとその応答とどう関係づけられているのか。個人情報と結びつけることで,レコメンドが可能になる。目録作成,分類,検索ツールについては,従来,ユーザーが仕組みを理解した上で使うという前提をやめて,機械学習がそのギャップを埋めてくれることを前提としたサービスに切り替える。そのために,機械学習のトレーニングにこうした分野の専門家がフィードバックを提供する。また,書誌作成,目録維持,引用・参照の分析,書評執筆,事典の編纂,チャットボットによるレファレンスサービス,パスファインダーなどにおいて,機械学習を用いたライブラリアンシップの向上が可能である。図書館が蓄積しているデータやノウハウがトレーニングデータの提供やキュレーションに貢献する。社会認識論に関わることとして,ファクトチェック,認知バイアスの軽減,真実主義のチェックなどに図書館員のノウハウは貢献する。

第12章 セントリーとしての図書館員

セントリーとは監視員という意味である。機械学習において,カスタマイズ,フィルター,レコメンドなどの機能は結果として検閲的に働くことがありうる。個人情報についても,パーソナライズのサービスが個人情報の目的外使用とバランスをとる必要がある。図書館員は知的自由を主張してきたが,アルゴリズムによるキュレーションを用いることで機械学習のバイアスやパターナリズムなどの意図せざる働きに対する歯止めになる可能性をもつ。それは,社会認識論的にも重要である。LLMがもたらす失業問題について,定型的な反復作業の自動化が進み,労働者はより複雑で価値の高い作業に取り組めるようになるというのが標準的な議論だが,失業がないという意味ではない。アセモグルは短期的には「そこそこの自動化」にとどまり,労働者の地位は下がるかもしれないが生産性の大きな向上にはつながらないと主張している。

第13章 エデュケーターとしての図書館員

情報消費者のためのAIリテラシーの中身は,アルゴリズムとその仕組み,AIツール(例えば第5章で述べたもの)とそれらが提供する情報についての批判的理解,バイアス,プライバシー,顔認識技術,研究ガイダンス,社会認識論といったものだ。研究ガイダンスとしては(図書館員は,機械学習ツールを使用してデータを分析する研究者を指導できる。これには,使用する適切なアルゴリズムに関するアドバイスの提供,結果の解釈の支援,研究が倫理的に実施されていることの確認などが含まれる。学習はよりパーソナライズされるようになり,個々の学生,講師,グループやクラスの学習データと分析が必要になり,図書館の利用データもその一部になる。大学図書館にAIラボをつくり,学生とインストラクターに新しいコンピューティング スキルを学ぶ機会を提供する事例が紹介される。個人情報の扱いは問題になる。研究面では,学術論文をフィルタリングし,評価し,発信するアルゴリズムが学術論文やジャーナルに取って代わりつつある。最後に,EUの「一般データ保護規則(GDPR)」22条では,プロファイリングを含む自動化された個人意思決定について,個人データを使用する際の注意の必要性と,下された個々の決定の説明の必要性を強調している。きわめて重要だ。特定の大企業がLMMをつくって世界中からデータを集めると様々な局面での意思決定に影響を及ぼす。説明可能な人工知能 (Explainable Artificial Intelligence: XAI) についての研究分野があるが,ブラックボックス化したAIの中身を見えるようにする努力が必要だ。

第14章 マネジャーとしての図書館員

図書館員の関わる情報マネジメントにおいて,過去の使用パターンと傾向を入力とし,需要とニーズを予測する予測分析や,ユーザーの個人データないし集団データによる行動分析,ユーザーが教育や学習の目的でどのようなリソースを使用し,どのように使用しているかに関するデータによるラーニング アナリティクスなどがある。これらをAIを用いて分析することで,エビデンスに基づくマネジメントが可能になる。こうしたことに対する忌避感やAIに対する恐れがあるようだ。しかしAI を,バイアス,誤用,差別のリスクと戦う積極的なプレーヤーとして受け入れる 図書館が情報マネジメントの分野で人工知能アプリケーションの実装に積極的な役割を果たせば,プログラマーがアルゴリズムに最適なデータを見つけるのを支援できる。

第15章: アストロノートとしての図書館員

ライブラリアンシップや情報キュレーション分野で,現代の機械学習が既存のものより際立った優位性を持つ可能性がある 3 つの分野は,データの視覚化,チャットボット,テキスト データ マイニングを含む情報発見だ。最後に,1986年のドン・スワンソン論文「未発見の公共知識」は,ライブラリアンシップが新しい創造的な領域を開拓する可能性を示した。それは,研究領域で未発見の2つの領域をつなぐためのデータマイニングの手法を提案するものであり,実際に,医学領域でその分野が開拓された。また,その手法は「文献に基づく発見Literature-Based Discovery」ないし「(テキストに基づく情報学Text Based Informatic」と呼ばれる。これは哲学者カール・ポパーの客観的知識論における「世界3」の開拓という意味合いもある。

付録A ライブラリアンシップの理論的背景
図書館情報学の知識組織論的な理論的背景について概説している。扱うのは,概念,分類,統制語彙,シソーラス,オントロジー,認識論などである。

付録B 大規模言語モデル(LLM) の操作
少し技術的な運用面に踏み込んで,Chat GPTなどのLLMと呼ばれるものの利用の仕方について解説している。

付録C 2つの重要な方法論的ポイント
主として統計学的な分析をするときの方法論的概念として,「偽陽性と偽陰性」と「 ベースレートの誤謬」について改めて詳しく解説している。

付録D 因果関係図
因果関係を→を用いて図示する手法についての解説である。

付録E ナレッジグラフ
人物,場所,物,日付などのオブジェクト間の関係をリンクで図示するナレッジグラフは情報発見のツールとして用いられる。

用語集
本文で出てきた重要な用語を解説している。

Bibliography
引用・参照されている文献一覧

読書アンケート2024:識者が選んだ,この一年の本(補足)

毎年,みすず書房から『読書アンケート』という冊子が出され,参加している。この一年に読んだ本のなかで他の人に紹介したい本を何冊か挙げたものだが,昨年読んだなかから次の3冊を選んだ。同冊子に書けなかったことを最後に補足しながら(最後の段落),再掲しておく。 1. ピーター・バーク『博...