2024-10-23

ライブラリアンシップとは何か:生成AIと図書館(1)

 ノーベル物理学賞と化学賞がどちらも生成AIに関連したものであることから,またまたこの技術に注目が集まっている。ノーベル賞は2020年代になってから,科学分野の基礎理論よりも応用技術や社会的インパクトのある方法的発見に目が向けられるようになった。19世紀末に亡くなったアルフレッド・ノーベルの遺産で始まったノーベル賞が想定した学術的なジャンルという概念はとうに古びたものになり,理論と技術と社会との関係がかつて以上に相互的なものととらえられているのかもしれない。その意味で,今年のノーベル平和賞は日本原水爆被害者団体協議会(日本被団協)という国際的にはほとんど知られていなかった日本のNPO(この団体は法的性格を公表していないようだが,一般的意味での非営利組織としておく)が受賞し,経済学賞にトルコ出身でMITに所属するアセモグルを含めた社会経済学者3名が受賞したことを含めて,国際関係,経済,社会が新たな展開に入ったことを示す兆候に対して,アルフレッド・ノーベルの最初の理念に戻った観点から受賞者を選択したのではないかと思われる。

生成AIについてはこれが私たちの生活の深いところから影響を与えるものとなっていることは改めて言うまでもない。図書館情報学においても,これをどのように用いるのかについての議論はすでにいろいろ書かれたり,論じられたりしている。そこでは他の職業領域と同様に,図書館員はAIに取って代わられるのか,というのが中心的な問いになっている。ここでは,マーティン・フリッケ著(根本彰訳)『人工知能とライブラリアンシップ』を選んで日本語訳を作成した経験から何が言えるのかについて考えてみたい。

エミリー・ディキンソン風に表現したライブラリアンシップ

まず,ライブラリアンシップ(librarianship)という言葉そのものが耳馴染みがないと感じる人がいるだろうから,これから説明する。ライブラリアンが図書館員のことであることは想像がつくだろうが,ライブラリアンシップとは文字通り訳せば「図書館員魂」とでもなるような用語で,英語圏の図書館界では今でもよく使われる。かつて使われた図書館学(library science)も同じような意味があるが,こちらはもっとくだけた感じであり,要するに図書館員がもつ知識とスキルの全体を指す言葉である。ただし,これを使うのはベテランの図書館員が多いし,学術的には図書館情報学(library and information science)が使われる。また,情報学(information science)も同じ領域を指す用語という考え方をする人たちも多い。それは言うまでもなくこの領域が情報技術と切っても切れない関係があるからである。ライブラリアンシップを今でも使う図書館員が多いのは,情報技術に還元されない部分を強調したいからだろう。

本書302ページに示されている,「ライブラリアンシップをエミリー・ディキンソン風に表現する」というプロンプトに対して生成AIが作成した回答の訳をみてほしい。

「図書館員は,その静かな優雅さをもって,書かれた言葉の番人を務める。彼女は書架の間を歩き回り,知識の優しい守護者となる。彼女が本を取り出すたびに,彼女の目の前に新しい世界が広がる。彼女は真実の探求者であり,言語の愛好家であり,アイデアの守護者だ。彼女の手は,長年ページを繰ってきたためタコだらけだが,彼女の精神は壊れていない。彼女は秘密の番人であり,夢の提供者であり,学問の擁護者だ。図書館員は宝であり,知恵と驚異の稀有な宝石だ。」

 ここにはいくつもの興味深い表現が見られる。まず,ここで描かれたライブラリアンシップ像である。前半には,書かれた言葉の番人,知識の守護者,真実の探求者,言葉の愛好家,アイディアの守護者というような表現が並んでいる。よく見れば,どれも同じような概念を言葉を変えて言い換えたように見える。最後にある,秘密の番人,夢の提供者,学問の擁護者も同じだ。要するに,なかなか到達できない書き言葉の世界を扱っていることをこれだけの形容語で表現したということができる。図書館員が書き言葉の管理者であって,その書き言葉は,知識や真実,アイディア,秘密,夢,学問といったものを内包しているから,管理者はこれだけのものを提供できる。そして最後に「宝であり,知恵と驚異の稀有な宝石」という最大限の賛辞を送るわけだ。

そうした図書館員の役割の記述以外にここで表現されているものは,一つは「静かな優雅さ」という言葉である。そのあとに「彼女」とあるように,女性性と密接な関係をもつ。作者ディキンソンは,19世紀アメリカの女流詩人でピューリタンの上流階級の家に生まれ,早くから詩作に目覚めて,生涯,その修辞的な技巧と内向的でセンチメンタルな表現の詩作をすることで知られていた。(日本語版Wikipediaにかなり長い解説がある。)このあたりの表現はそれを反映しているのかもしれない。ただし,図書館員と女性性をつなげる考え方がフェミニズムの観点から批判されていることは確かだ。(参照:ディー・ギャリソン (田口瑛子訳)『文化の使徒 : 公共図書館・女性・アメリカ社会, 1876-1920年』日本図書館研究会, 1996)ここには,残されているテキストの文化的偏差が反映しているということも言える。

もう一つは「長年ページを繰ってきたためタコだらけだが,彼女の精神は壊れていない。」という表現だ。前半は図書館員の仕事から来るものなのだろう。後半の「精神は壊れていない」というのをどのように理解したらよいのだろうか。書物の世界に耽溺しすぎることで精神に変調を来すというのは西洋の知的世界では言われていたことは確かだ。作家のなかではヴァージニア・ウルフやカフカ,エドガー・アラン・ポーなどがそうした傾向のあった人と言われる。だから,ここでは図書館員は書物の世界に入ってはいるが,仕事としているので精神に変調を来すことはないという意味なのだろう。

作家の文体とは何かー大規模言語モデルの実験

ともかく,この文章はエミリー・ディキンソン風の文体によって西洋における図書館員というものの(ステレオタイプ的な)特性を言い表しているということができる。このような文体がどのようにして「生成」されるのかについて,詳細なところは公表されていないが,仕組みの大雑把なところはすでにいろいろと解説されている。生成AIの大規模言語モデルがどのように言葉を生成するのかについて,フリッケは本書で,大規模な書き言葉の集積があって,それらを処理単位(トークン)に分割したものを多次元的なベクトルとして数値化したものをデータベース化し,類似度を計算することを繰り返してつくり上げられると述べる。その際に,テキストからの埋め込み(embedding)が行われ,ベクトルはトークンとトークンの関係を確率的に計算する学習を繰り返すことにより,「意味」が形成されるという。おそらくは「文体」もまたそうした確率的関係によって決定されるのだろう。

という説明だけでは理解しにくいので,フリッケに倣って,試しに,ChatGPTに対して,「図書館員の仕事を*風に表現してください」という質問をしてみたところ次のような結果となった。*に入力したのは,1.与謝野晶子,2.川端康成,3.小松左京である。

1. 図書館員の仕事を与謝野晶子風に表現してください

ChatGPT:

図書館員の仕事は、まるで静かな庭に咲く花々を愛でるようなものです。書物の一冊一冊が、心の奥深くにひっそりと寄り添い、時に熱く、時に冷たく、さまざまな感情を呼び起こします。

訪れる人々は、何かを求めてこの場所に足を運び、その瞳には希望が宿ります。その瞬間、私は彼らの心を受け止め、彼らが探し求める物語へと導く役割を担います。本のページをめくる指先に触れると、まるで詩の一行が静かに流れ出すようで、私自身もその言葉に心を奪われていくのです。

図書館は、言葉が織りなす小宇宙。さまざまな人々の思いが交差し、共鳴しあう場所。私もまた、その中で一つの声として存在し、言葉の力を信じ、ひたむきにその使命を果たしていきます。

この静けさの中に、感動と喜びが満ち溢れ、心の奥に潜む情熱をかき立てられる。私の仕事は、書物を通じて生きる喜びを分かち合うこと。言葉の花を育てることで、訪れる人々の心を彩り続けたいのです。


2. 図書館員の仕事を川端康成風に表現してください

ChatGPT:

図書館員という職は、静寂の中に佇むひとりの旅人のようなものだ。書架に並ぶ本たちは、まるで長い旅路を経て、今ここに集まった思い出のように感じられる。それぞれのページには、遠い国の風景や、忘れられた人々の声が宿っている。

私はその本たちの案内人であり、訪れる人々に物語の扉を開く役目を果たす。彼らの目に浮かぶ期待や好奇心は、私の心にも温かな光を与える。薄暗い図書館の中、静かに本を手に取る音が響き、その瞬間に小さな宇宙が広がるのを感じる。

外の世界の喧騒は遠くに感じられ、ここでは時間がゆっくりと流れている。人々が本に触れることで、心の奥深くにある何かに触れ、過去と未来が交わる瞬間が生まれる。その瞬間に、私は自分自身もまた、書物の中の一ページになっていくのだ。

図書館はただの場所ではなく、思索と感動が交錯する聖域。そこにいることで、私は人間の営みの深さを感じ、また一歩、静かな旅へと誘われていく。


3. 図書館員の仕事を小松左京風に表現してください

ChatGPT:

図書館員の仕事は、まるで無限の宇宙を航海する宇宙飛行士のようなものだ。無数の書物は、銀河の星々のように、さまざまな物語や知識を秘めている。私はその星々の間を行き来し、訪れる人々に未知の世界を紹介する役割を担っている。

静かな書架の間を歩くと、時折、誰も知らない宇宙の秘密が耳をかすめるような気がする。ページをめくる音は、星の輝きが響く音楽のようで、心に不思議な感動を与える。私が手にする本の中には、異次元の思考や未来の予感が詰まっているのだ。

しかし、この空間は単なる情報の集積ではない。人々が訪れ、夢を語り、思索を重ねることで、ここは生きた場となる。図書館は、未来を探るための実験室でもあり、過去を解き明かすための考古学的な現場でもある。

私は、これらの知識の星々を繋ぎ、未来の探求者たちを導く道しるべとなる。やがて、彼らが持ち帰る知識や感動が、新たな宇宙を創造していくのだ。その瞬間こそが、図書館員としての私の存在意義であり、無限の可能性を感じる瞬間でもある。

どうだろうか。見事にそれぞれの作家の特徴を反映した文体で図書館員の仕事が表現されている。しかし,今,文体という言葉を使ったが先ほどの大規模言語モデルの説明に照らし合わせてみると,これを文体といってよいのか疑問も沸いてくる。要するに,それぞれの作家が使いそうな語を組み合わせて出力しているにすぎないのではないかと。

AIがしていることは,言葉と言葉がどのような関係で結びついているのかを確率計算によってつくりあげたベクトルデータベースに対して,プロンプト(質問)が与えられて,それによってつくられたベクトルデータとの一致度の高いものを再構成しているということである。この場合のプロンプトのデータは,「図書館員」,「仕事」,「作家*」である。推測できるのは,「作家*」が使用していたり,その人について書かれたりしたものの膨大なテキスト群があり,そのベクトルデータがつくられる。同様に,「図書館員」,「仕事」についてもデータがある。そして,それらが1つのプロンプトで表現されたときに,3つの言葉に共通する要素の多元的な言語空間が計算によって出力されて,それが文章として示される。

文章はいずれもステレオタイプと言えば言えないこともない。最初に「〜のようなものだ」で始まり,その「〜」にちなんだ経験が語られ,図書館員(あるいは私)がそこで何をしているのかの説明がある。そのときに,それぞれの作家が用いそうな語,表現が連続的に出てくるので,確かにその作家の文体だと思わせる効果がある。ともかく,短い文章ではあるが,文章の流れがしっかりしている。起承転結があるといってもよい。おそらく,ChatGPTは標準でこのような4段落の文体で流れをつくるように仕組まれているのだろう。

本当のところ,「文体」がこのような説明で可能なのかはよくは分からない。文体というのが特定作家が使う確率の高い用語の集合体にすぎないとすれば,ここまでの説明で足りるのかもしれない。しかし,与謝野晶子のものが,「ですます調」で,他の2つが「だである調」であるのは偶然ではないだろうし,単なる用語の集合体というだけではすまない,語と語のつながりに対する「深層的」結びつきがみられる。この「深層」こそがキーワードであり,そこでは思想も知識も文体もが「生成」される。それがたとえ計算に計算を重ねたものだとしても,「人口」「知能」に見えてしまうのだ。

AIは図書館員のためのツールである

生成AIが日米の4人の作家の表現として示した図書館員の仕事あるいはライブラリアンシップは,書物に関わるという点で共通しているが,その関わり方にはそれぞれ特徴があっておもしろかった。AIにこんなこともできる,あんなこともできるということがよく言われるのだが,ここでもそれがこのように示されると驚異であった。しかしながら,それが図書館員にとっての脅威にならないかというのが多くの関係者の不安でもある。そのことに対して,フリッケは本書で,このツールを使いこなすことが重要だと言うだけでなく,図書館員はもともと情報ストックの管理者であったのだから,AIとユーザーをつなぐことが託された位置付けになることを強調している。そのことについて,次に書きたい。







2024-10-20

『人工知能とライブラリアンシップ』の概要紹介

別ページで公開したマーティン・フリッケ『人工知能とライブラリアンシップ』の概要を紹介します。この本は,最新の生成AIの技術的知識を,きわめて高い水準を保ちながら分かりやすく解説し,それが図書館員の仕事とどのような関係になるのかを説明したものです。生成AIは大規模言語モデルを用いて,従来の情報検索や全文検索とは異なる知への新しいアプローチを提供していて話題を集めています。図書館員の仕事も文献の蓄積に対してアクセスすることを支援するものですから,この技術をうまく使うことで大きな力となるはずです。

しかしながら,そこには気をつけなければならない多数の問題があります。それを著者はていねいに記述していきます。全部で15章の本文に付録と用語集,文献一覧を含み,A4判で400ページ近くになる大著です。簡単に読みこなすことは難しいように思われるかもしれません。

全体としては,本文の1章から5章までは生成AIの技術的解説とその特性についての説明,6章から9章は生成AIがはらむ倫理的問題点とそれがライブラリアンシップとどのような関係になるのかの解説,そして10章から15章がライブラリアンシップにとって生成AIをどのように使いこなすべきなのかの話しです。とくに図書館関係の方は10章〜15章を先に目を通すと読みやすいかもしれません。お急ぎの方は,図書館員の役割を概説している10章と将来展望を述べている15章だけでも読むと,著者が図書館にどのような希望を込めているのかがわかります。



<目次>

第1章  知的背景
第2章  チャットボット
第3章  言語モデル
第4章  大規模言語モデル
第5章  大規模マルチモーダルモデル
第6章  評価と将来
第7章  バイアスと不公平
第8章  機械学習とライブラリアンシップにおけるバイアス
第9章  自然言語処理(NLP)はライブラリアンシップに何をもたらすだろうか?
第10章  図書館員にとってどんな機会になるか?
第11章  シナジストとしての図書館員
第12章  セントリーとしての図書館員
第13章  エデュケーターとしての図書館員
第14章  マネジャーとしての図書館員
第15章  アストロノートとしての図書館員


第1章 知的背景 

今起こっているAIについての技術的進展の最先端がどのようなものであり,そこで使われている技術の概要についての紹介。とくにライブラリアンシップにとって重要なテキストやそこへのアクセス問題(テキスト読み上げや機械翻訳,情報検索,アーカイブなど)と今の技術がどのような関係にあるのかについて記述している。また,AIの本質が機械学習にあること,そして,そこで学習のための「教師」がテキストによるトレーニングセットで構成されること,テキスト作成のためのOCR技術の重要性が解説される。教師あり,教師なしなどの組み合わせでトレーニングされ,さらに次の段階として自己教育が可能になる。これが,機械学習のポイントである。

第2章 チャットボット

コンピュータ画面でAIと対話しながら情報を得たり,何らかの指示を出したりするチャットボットの仕組みについての解説。こうしたシステムも初期のプログラム化されたエキスパートシステムから現在の深層学習に変わって大きく進化した。機械との対話が自然であるかどうかを見分けるためのチューリングテストにパスするようなものが現れている。深層学習による機械学習を理解するためには,テキストに現れていない意味(含意)を理解できるようにする必要があることが述べられる。

第3章 言語モデル

ここでは,言語学習がどのように行われるのかについての基本的な理論の解説を行っている。テキストを構成する文字の並びから次の文字を予想するために,確率的に言語のつながりを計算する手法である隠れマルコフモデルという考え方を導入する。シャノンは,英語の文字のシーケンスの確率に着目した。これによってサンプルデータからの学習の方法(ベイビーGPT)が示される。その方法が実際の大規模データで長期間をかけ,評価とフィードバックを含めて実行されてできたものがGPT等の大規模言語モデルである。学習の方法としてベクトルで表現した単語の「埋め込み」を行いそれを修正しながら学習していく。こうし言語モデルから出力される文は知識や真実と乖離していることも多いが,それらに対して,教師あり学習の微調整や人間の評価者による強化学習によって知識や意味の要素を加えていくプロセスとしてInstructGPTがある。

第4章 大規模言語モデル

こうした言語モデルを大規模に高速に実行する方法について詳細に述べているのが,この章である。ここでは,効果的に言語を処理するために注目すべき語やシーケンスに重み付けをするためのアテンションや並列処理を可能にするトランスフォーマーといった最近開発された技術について解説される。さらに,大規模言語モデルの自己監督機能を使用してモデルを事前トレーニングし,次に微調整を施してモデルを下流のタスクに適したものにしていく過程を繰り返したものが基盤モデルと呼ばれる。基盤モデルはテキストだけでなく,音声,画像,映像などのマルチモーダルなドキュメントを同時に扱うことも可能になっている。こうして現れたのがGPT-3,GPT-3.5,GPT-4などの生成AIである。これらの多くはチャットボットのようなエージェント(質問応答形式)で提供されている。具体的な例として,本(AIと研究図書館のライブラリアンシップ)のアウトラインをつくっているプロセスを示している。こういうLLMの仕組みの解説から,問題点として,幻覚(ハルシネ—ション),フェイク,知財,プライバシー,チョムスキー理論との関係,サイバーセキュリティ,透明性の欠如,環境コスト,推論に弱いなどの問題点を指摘している。

第5章 大規模マルチモーダルモデル

画像や音声,映像を解析して対話的に応答できるLMMはLLMの一種と考えることができる。画像内のテキストや数値を読む,ただし,これを使う際には,マルチモーダルであることによるプライバシーやステレオタイプ,障害者への配慮などの安全面の配慮事項がありうる。LMMを使って説明したり,推論したりする例が多数紹介されている。ルネサンスの絵画を見ての美術史の解説,科学的知識と組み合わせての教育指導案,寿司の作り方の手順の写真から作成順序を推論,外的世界との関係ではロボットに買い物の指示をする事例など。これうして,現実世界とマルチモーダルな関係でつながる可能性が高まった。2024年になると,GPT-4 ターボ(OpenAI),Gemini(Google),Claude(Anthropic)など各社がLMMの拡張版を一斉に発表した。これによってできることはたくさんある。たとえば,スマホで撮影した画像からテキストを抽出すること,二つの画像の違いを見分けること,医療用画像の説明,画像の生成,画像の分類やラベル付け,情報検索の拡張といったものだ。

第6章 評価と将来

AI は主に信頼性とアラインメントの概念を使用して評価する。信頼性は一貫していることであり,アラインメントはモデルの予測や動作が,期待される,望ましい,または意図された結果とぴたりと一致することだ。LMM で何ができるかを理解する方法の 1 つは,一般的なベンチマークを見ることで,ここでは評価のためのツールとしてMT-Bench ,Chatbot Arena,A12 Reasoning Challenge,MMLU などがあり,それぞれの特徴が説明される。さらにコンピュータ コードの作成に特化したベンチマークとしていくつかを紹介している。「汎用人工知能(AGI)」を評価するための ARC-AGIベンチマークというものもある。最後に,カーツワイルの「シンギュラリティ」が起こるかどうかについて,アッシェンブレンナーが行った今後10年の予測記事の紹介があり,2027 年頃までに AGI が登場し,その1年後くらいにそれらを遙かに上回る人工超知能(ASI)が現れる可能性がある。これを最初に手に入れた者に決定的な軍事的および政治的優位性をもたらす可能性がある。AGIからASIへの飛躍の鍵は重み付けにあるので,セキュリティがきわめて重要である。

第7章 バイアスと不公平

ここからは,AIがもたらす倫理的問題について突っ込んだ議論がある。まず,機械学習におけるバイアスとは,事前に設定された変数間の重み付けのことであり,それ自体には倫理的社会的問題は存在しない。また予測バイアスという用語が使われるがそれは予測値と実質値との偏差という意味だ。明らかなバイアス表現は対応すれば排除できるが,自然言語に含まれるバイアスの多くはバイアスと気づかれないままに機械学習の基になっている。また,アルゴリズムは中立的用語でそれ自体にバイアスはない。バイアスをもたらすものがあるとすれば,ソフトウェアの仕様である。ただし,コンピュータの学習や予測は自己監督によることで非経験的であり,それはさらに深層学習で行われることによって「バイアス」が生じることは防げない。機械学習のバイアスに対して知識をもつことが必要で,ここでは分配的正義の意味での公平性について,住宅ローン審査のシステムにおける閾値の設定問題を挙げて論じる。また,ジェンダーバイアス除去,顔認識の拡がりにおけるパノプティコン状況の成立,図書館の蔵書分類問題などについて論じる。AIに含まれる誤報,スパム,フィッシング,法的および行政的プロセスの悪用,不正な学術論文執筆,バイアスなどについてそれが起こる理由を推測できることが大事だ。スマホを使うすべての人はプログラマーであり,図書館員は「情報リテラシー」の専門家である。

第8章  機械学習とライブラリアンシップにおけるバイアス

大規模言語処理に伴うバイアス問題をさらに分析する。とくに,どのようなシステムの動作が,誰に対して,なぜ有害であるか,これらの記述の根底にある規範的推論がどのように行われるのか。機械学習,バイアス,ライブラリアンシップに交差するところがあることを理解する。次に,検索エンジンの特性がバイアスを生み出す問題として,システムがもつステミング,オートコンプリートなどのキーワード修正機能があり,個々のユーザーの個々の検索機会によって作動の仕方が変わることが論じられる。ソーシャルメディアは1日24時間休みなく偽情報,誤情報,虚偽情報を大量に生み出しているが,これらは機械学習が翻訳や文章書き換えなどによってさらに強化しており,学習成果としてバイアスが紛れ込む。ライブラリアンシップの情報組織化において,「文献的根拠(literary warrant)」という概念が疑われて,かつてのツールのバイアスが問われるようになり,LCSH等のバイアスが問題になった。また,文献がネット上に無数にあるときに,「ユーザー的根拠」なのか「文化的根拠」なのかが問われるようになった。機械学習によってこれらの一部を技術的に解決することが可能である。分類という行為は二分する結果をもたらすことで責任を伴う。分類や件名標目,メタデータの選択はすべてある種の文化的行為であるが,どの文化的背景に基づくかの闘争があった。今,それが無秩序に拡がるLMMがツールとなったときに,図書館員が行ってきた議論や積み重ねてきた倫理的判断は役に立つはずである。

第9章 自然言語処理(NLP)はライブラリアンシップに何をもたらすだろうか?

自然言語処理についての技術的解説をすることによって,テキストをいじってLLMを構築する際にどのようなことが起こるのかを理解する。まず前処理を行って,テキストから余分なものを削除し分割したり正規化したりして,処理の最小単位であるトークン化する。その文字列から数値のベクトル (つまりリスト) を生成する。情報検索はクエリの文字列のベクトルとテキストの文字列のベクトルがどの程度類似しているかを評価して行う。類似するが異なる語でも埋め込まれたベクトルは類似性が高いことから検索が可能になる。単語だけでなく,チャンク(章,ページ,段落,文)でも同じことが可能である。また,検索だけでなく,テキストとテキストを対応させる処理(分類,レコメンド,トピックの抽出,固有名の処理)などでも同様であるから,図書館で行っている知的な処理(書架分類,書誌分類,統制語彙,索引法,自動索引,抄録,抜粋,キーフレーズ,キーワード,要約)のほとんどに適用可能である。これらについて一つ一つ解説している。ここで説明されたNLPの技術は,プログラマー (または図書館技術サービス部門) が大規模言語モデル (LLM) を使用し,公開アプリケーション プログラミング インターフェイス (API) を持つものを使用する適切なソフトウェアを作成することで利用可能である。

第10章 図書館員にとってどんな機会になるか?

エドワード・ファイゲンバウム (「エキスパート システムの父」) が,未来の図書館がAI を知識サーバーとして書物と書物が対話することを述べている。これはライブラリアンシップを考えるヒントになる。今,大量のボーンデジタルデータが生み出されビッグデータが問題になっているが,これらを扱えるのはLMMを使いこなすライブラリアンシップである。そのために,図書館員の役割を「シナジスト(相乗効果の仕掛け人)」「セントリー(監視者)」「エデュケーター(教育者)」「マネージャー(管理者)」「アストロノート(宇宙飛行士)」という5つのカテゴリーに分けて次章以降の各章で特性を検討する。ここでは頭出しで,たとえばシナジストは,AIはOCRや翻訳などによって情報アクセスを以前より容易にし知的自由を高める。スマホは情報へのアクセス機会をいっそう向上させる。ユーザーとリソースの仲介においても検索のレコメンドをしてくれる等々である。つまり,AIをライブラリアンシップにうまく組み込むことによって,AIの能力をライブラリアンシップの手法で向上させられるという役割である。セントリー(監視者)は,AIがもたらす進歩につきものの問題,とくに倫理的問題をチェックする役割である。エデュケーター(教育者)は,情報リテラシーやデータリテラシーへの対応である。マネージャーは図書館運営においてAIをうまく取り入れることである。アストロノート(宇宙飛行士)は,図書館が知識の宝庫であることでAIを駆使した知識の創造などに関わるということを言っている。

第11章 シナジストとしての図書館員

図書館における知的自由には,特権(自由権)と請求権的な側面がある。両方の意味での知的自由を保証しようとする。図書館員が多言語環境や古い活字本や手書きの本,オーディオ資料の文字変換,手話からテキストへの変換,翻訳等々を処理しなければならないときに,OCRや文字認識,音声認識,映像処理,翻訳のプログラムが何をしているのかを理解することが重要である。また,ユーザーとリソースをつなぐために知っておくべきことがある。たとえば検索エンジンのPageRankや機械学習が何をしているのか,商用情報検索システムがクエリとその応答とどう関係づけられているのか。個人情報と結びつけることで,レコメンドが可能になる。目録作成,分類,検索ツールについては,従来,ユーザーが仕組みを理解した上で使うという前提をやめて,機械学習がそのギャップを埋めてくれることを前提としたサービスに切り替える。そのために,機械学習のトレーニングにこうした分野の専門家がフィードバックを提供する。また,書誌作成,目録維持,引用・参照の分析,書評執筆,事典の編纂,チャットボットによるレファレンスサービス,パスファインダーなどにおいて,機械学習を用いたライブラリアンシップの向上が可能である。図書館が蓄積しているデータやノウハウがトレーニングデータの提供やキュレーションに貢献する。社会認識論に関わることとして,ファクトチェック,認知バイアスの軽減,真実主義のチェックなどに図書館員のノウハウは貢献する。

第12章 セントリーとしての図書館員

セントリーとは監視員という意味である。機械学習において,カスタマイズ,フィルター,レコメンドなどの機能は結果として検閲的に働くことがありうる。個人情報についても,パーソナライズのサービスが個人情報の目的外使用とバランスをとる必要がある。図書館員は知的自由を主張してきたが,アルゴリズムによるキュレーションを用いることで機械学習のバイアスやパターナリズムなどの意図せざる働きに対する歯止めになる可能性をもつ。それは,社会認識論的にも重要である。LLMがもたらす失業問題について,定型的な反復作業の自動化が進み,労働者はより複雑で価値の高い作業に取り組めるようになるというのが標準的な議論だが,失業がないという意味ではない。アセモグルは短期的には「そこそこの自動化」にとどまり,労働者の地位は下がるかもしれないが生産性の大きな向上にはつながらないと主張している。

第13章 エデュケーターとしての図書館員

情報消費者のためのAIリテラシーの中身は,アルゴリズムとその仕組み,AIツール(例えば第5章で述べたもの)とそれらが提供する情報についての批判的理解,バイアス,プライバシー,顔認識技術,研究ガイダンス,社会認識論といったものだ。研究ガイダンスとしては(図書館員は,機械学習ツールを使用してデータを分析する研究者を指導できる。これには,使用する適切なアルゴリズムに関するアドバイスの提供,結果の解釈の支援,研究が倫理的に実施されていることの確認などが含まれる。学習はよりパーソナライズされるようになり,個々の学生,講師,グループやクラスの学習データと分析が必要になり,図書館の利用データもその一部になる。大学図書館にAIラボをつくり,学生とインストラクターに新しいコンピューティング スキルを学ぶ機会を提供する事例が紹介される。個人情報の扱いは問題になる。研究面では,学術論文をフィルタリングし,評価し,発信するアルゴリズムが学術論文やジャーナルに取って代わりつつある。最後に,EUの「一般データ保護規則(GDPR)」22条では,プロファイリングを含む自動化された個人意思決定について,個人データを使用する際の注意の必要性と,下された個々の決定の説明の必要性を強調している。きわめて重要だ。特定の大企業がLMMをつくって世界中からデータを集めると様々な局面での意思決定に影響を及ぼす。説明可能な人工知能 (Explainable Artificial Intelligence: XAI) についての研究分野があるが,ブラックボックス化したAIの中身を見えるようにする努力が必要だ。

第14章 マネジャーとしての図書館員

図書館員の関わる情報マネジメントにおいて,過去の使用パターンと傾向を入力とし,需要とニーズを予測する予測分析や,ユーザーの個人データないし集団データによる行動分析,ユーザーが教育や学習の目的でどのようなリソースを使用し,どのように使用しているかに関するデータによるラーニング アナリティクスなどがある。これらをAIを用いて分析することで,エビデンスに基づくマネジメントが可能になる。こうしたことに対する忌避感やAIに対する恐れがあるようだ。しかしAI を,バイアス,誤用,差別のリスクと戦う積極的なプレーヤーとして受け入れる 図書館が情報マネジメントの分野で人工知能アプリケーションの実装に積極的な役割を果たせば,プログラマーがアルゴリズムに最適なデータを見つけるのを支援できる。

第15章: アストロノートとしての図書館員

ライブラリアンシップや情報キュレーション分野で,現代の機械学習が既存のものより際立った優位性を持つ可能性がある 3 つの分野は,データの視覚化,チャットボット,テキスト データ マイニングを含む情報発見だ。最後に,1986年のドン・スワンソン論文「未発見の公共知識」は,ライブラリアンシップが新しい創造的な領域を開拓する可能性を示した。それは,研究領域で未発見の2つの領域をつなぐためのデータマイニングの手法を提案するものであり,実際に,医学領域でその分野が開拓された。また,その手法は「文献に基づく発見Literature-Based Discovery」ないし「(テキストに基づく情報学Text Based Informatic」と呼ばれる。これは哲学者カール・ポパーの客観的知識論における「世界3」の開拓という意味合いもある。

付録A ライブラリアンシップの理論的背景
図書館情報学の知識組織論的な理論的背景について概説している。扱うのは,概念,分類,統制語彙,シソーラス,オントロジー,認識論などである。

付録B 大規模言語モデル(LLM) の操作
少し技術的な運用面に踏み込んで,Chat GPTなどのLLMと呼ばれるものの利用の仕方について解説している。

付録C 2つの重要な方法論的ポイント
主として統計学的な分析をするときの方法論的概念として,「偽陽性と偽陰性」と「 ベースレートの誤謬」について改めて詳しく解説している。

付録D 因果関係図
因果関係を→を用いて図示する手法についての解説である。

付録E ナレッジグラフ
人物,場所,物,日付などのオブジェクト間の関係をリンクで図示するナレッジグラフは情報発見のツールとして用いられる。

用語集
本文で出てきた重要な用語を解説している。

Bibliography
引用・参照されている文献一覧

マーティン・フリッケ『人工知能とライブラリアンシップ』の公開

マーティン・フリッケ著(根本彰訳)『人工知能とライブラリアンシップ』

本書はMartin Frické, Artificial Intelligence and Librarianship: Notes for Teaching, 3rd Edition(SoftOption ® Ltd,.2024年8月)の全訳である。次をクリックすればダウンロードできる。

日本語1.0版(PDF版)

本文冒頭の「著者のメモ」で述べられているように,この領域は急速に展開している。著者は今後も本書を改訂し続ける可能性があるが,本書の本質的な部分は変わらないと思われるので,この版を翻訳した。

原著は次のページに置いてある。

https://open.umn.edu/opentextbooks/textbooks/artificial-intelligence-and-librarianship

本書冒頭(「タイトルページ裏」)で,著者は本書をCC BY 4.0でオープン化することを宣言している。著者の意図に配慮し,日本語版も同様の方法で公開することにした。

本書の概要についてはブログの別ページに置いてある。

2024-10-20『人工知能とライブラリアンシップ』の概要紹介

また,著者紹介・翻訳の経緯について以下で紹介する。

2024-10-23 ライブラリアンシップとは何か:生成AIと図書館(1)




ライブラリアンシップとは何か:生成AIと図書館(1)

 ノーベル物理学賞と化学賞がどちらも生成AIに関連したものであることから,またまたこの技術に注目が集まっている。ノーベル賞は2020年代になってから,科学分野の基礎理論よりも応用技術や社会的インパクトのある方法的発見に目が向けられるようになった。19世紀末に亡くなったアルフレッド...