ページ

2024-10-25

なぜこの本を翻訳したのか:生成AIと図書館(2)

 マーティン・フリッケ著『人工知能とライブラリアンシップ』を1ヶ月で翻訳した。できた訳稿は全部で40万字,大判で400ページ近くある大きな本になった。かつてなら1年くらいかけないとできないようなものが短期間でできたのは,AIの力を借りたことが大きい。翻訳ソフトの能力が各段にアップしたと感じたのは,ここ2〜3年である。実は,まもなく発売になる『知の図書館情報学』の8章,9章で外国の理論を紹介している部分についても,これを使ったことで各段に執筆が進んだ。また「知識組織化研究会(KORG_J)」においても利用している。もう憚る必要がないほどに活用せざるをえないものがある。何しろ,そのまま日本語として読める文章を出力してくれるのだ。まだ誤訳はあるにせよ,その領域に精通していれば,おかしなところを自分で容易に修正できる。だから,この本の翻訳についても,それほど苦労はしなかった。

前回,書いたように,作家の文体を真似たように見える文章もよく見ると,何か変ということは言える。同じことを何度も繰り返しているからである。しかし作家も人によるが,繰り返すことも含めて自分の文体とするという考え方もある。しかし,翻訳となれば原文に寄り添う訳だから,少しの言い換えは問題にならない。何よりも著者が曖昧性を拝した論理的文章を書くのに長けた人であることに助けられたということは言えるだろう。

まず,著者がどういう人かを紹介する前にこの人のFrickéという姓の語尾をどう表記すべきかに少し悩んだ。このアクセント記号(アクサンテギュ)はフランス語で用いられ,通常は「エ」の音を示すと理解されている。たとえば,シネマはcinémaである。ところが,英語圏でこの音は「イ」と聞こえることも多い。たとえば。saké(酒)、Pokémon(ポケモン)は「サキ」「ポキモン」と発音する人が多い。たぶん,英語でeは弱いか聞こえないので多くの人は慣れないのだろう。フリケとするのが原音に近いのかもしれないが,小さな「ッ」を入れることにした。この方が日本人には発音しやすいからである。

フリッケ氏について

著者はアリゾナ大学情報学部名誉教授ということである。私にとっては,『知の図書館情報学』の第2章で扱ったDIKWピラミッドという概念を痛烈に批判した人というイメージだった。これはデータから情報が生まれ,情報から知識が生まれ,知識から知恵が生まれるという積み重ねモデルであり,LIS関係者も何となく信じていたところがある。しかし科学哲学の議論をベースに考えれば,たとえば科学的知識は観測データだけで生まれるものではなくて,すでにある情報や知識をベースに仮説が組み立てられ,それに基づきデータが集められることで検証され確定していく。決して下から積み重ねられるわけではない。このある意味で当たり前のことをずばり指摘していたところが印象的で,他の著書を読んでみたくなった。彼にはLogic and the Organization of Information(Springer, 2012)という本があり,Google Booksで全体に目を通すことができる。また,彼の大学のHPで,リンクされていたオープンデータのこの本を提供してくれている。

フリッケ氏の研究分野は「論理と図書館学」「暗号技術」「機械学習」ということである。もともと哲学を専攻したことがこうした論理学をベースにした図書館や情報技術への関心につながっている(文末注参照)。そしてプログラマーとしてのキャリアがあって,コンピュータ技術にも詳しい。彼は,図書館情報学と哲学,そしてコンピュータサイエンスの橋渡しのような立ち位置で仕事をしてきた。日本では他分野からこの領域に入って来た人はおうおうにして,この領域での反応の鈍さから,自分の領域から離れずにいることが多かったし,場合によっては新しい学会をつくってそちらで研究発表する例も多々見られた。アメリカでもそういう傾向はあるが,人によっては図書館ないし図書館情報学の発展にかかわろうとする人もいた。著者もそういう人の一人である。彼が,図書館情報学や情報学ではなく,ライブラリアンシップという領域名を使い続けているのもその現れである。

今回,他方ではヨーロッパの知識組織論事典の読書会をやり始めた。こちらは,LIS正統派の枠内にある,分類や主題,情報検索,索引,書誌,オントロジーなどの最近までの展開をきちんとレビューしておこうと考えてのものである。日本でもある程度のフォローはされている領域であるが,私自身はそういう技術領域と社会的・歴史的なものとの関係を理論的に把握しておきたいということがあった。そのために,社会認識論やドメイン分析などで深く幅広い議論が行われているこの事典を取り上げた。そうした動向と大規模言語モデルとがどのような関係になるのかは最初からもっていた疑問である。


本書の主張

フリッケ氏の論は,分類法や件名法のようにテキストに対して人的な処理をする手法,そして,テキストから取り出した文字列を機械的に照合する従来の情報検索の手法,そして,それとは異なってテキストから取り出したトークンやその集合体の相互関係をベクトル空間で表現してその関係を数値計算によって学習させるAIの手法,これら三者の比較という視点がはっきりしている。生成AIと呼ばれるものはそこに,用いられる言語ベースの規模の大きさと深層学習というプロセスが加わることで,「意味」が表現されることが重要である。それは,従来のIRシステムが語と語とのマッチングによってクエリとの関連を見ていたのに対して,各段に人間の学習に近いものが実現されている。ただし,著者はここでチョムスキー理論との関係についても述べている。チョムスキーは人間の言語能力は生得的なものであるとして,人はそのもって生まれた能力(生成文法)をもとにして外的世界から学んで言葉を獲得していくとした。それに対して,生成AIにそうした能力があるのではなくて,多数の言語の使用例を多次元で関係づける高速計算が一見すると意味の理解や意味の形成を可能にしているように見せているだけであるという。

生成AIにさまざまな落とし穴があることはこれまでも指摘されてきたことではある。(なお,2023年にチョムスキー本人が生成AIは「凡庸な悪」だと発言をしたことが伝わっている。)フリッケ氏はそれをひとつひとつていねいに指摘する。指摘されるのは,幻覚(ハルシネ—ション),フェイク,知的財産権に関わる問題,プライバシー,サイバーセキュリティ,透明性の欠如,環境コスト,推論に弱いなどの点である。総じてAIがもつバイアスをどう考えるについて,6章から9章までで具体的な例をもって示されている。

その上で,図書館員はどうすべきなのかを述べたのが10章から15章である。ここで,図書館員の役割を「シナジスト(相乗効果の仕掛け人)」「セントリー(監視者)」「エデュケーター(教育者)」「マネージャー(管理者)」「アストロノート(宇宙飛行士)」という5つのカテゴリーに分けて各章で詳しく述べる。シナジストとは,AIをライブラリアンシップにうまく組み込むことによって,AIの能力をライブラリアンシップの手法で向上させられるという役割のことである。セントリー(監視者)は,AIがもたらす進歩につきものの問題,とくに倫理的問題をチェックする役割である。エデュケーター(教育者)は,情報リテラシーやデータリテラシーへの対応である。マネージャーは図書館運営においてAIをうまく取り入れることである。最後のアストロノート(宇宙飛行士)は,図書館が知識の宝庫であることでAIを駆使した知識の創造などに関わるということを言っている。

というように,著者は,生成AIの可能性と限界を見定めた上であくまでも図書館員に寄り添ったかたちで論を展開している。とくに最後のアストロノートとしての図書館員というのは,地上で見ていたのではわからないことが宇宙空間から見ることで理解できることがあるように,知の空間のアストロノートもまた既知と既知をつなぎ,未知のものを発見し,既知と未知の橋渡しをするような役割を期待している。そのことは日本の図書館員にとってもよきメッセージになるだろう。

*なお,彼がAI技術とその哲学についての専門家で,機械学習の認識論についての専門的知見を披露している人であることは次の対談を読むとわかる。







自己紹介詳細版(2024年10月25日)

 【自己紹介】

職業 文筆業(歴史,教育文化方面)

場所 つくば市, 日本

自宅物置の軒先にできたアシナガバチの巣

アシナガバチの巣

つくば市小田に住んでいます。小田は関東平野の東側の壁に位置する自然豊かな里です。この地であった出来事,考えたことなどを書き連ねたいと思います。研究方面の情報は、https://researchmap.jp/oda-seninにあります。



【最近の関心】

・アーカイブ(archive)に関わる歴史、思想、言語、教育、情報など

・図書館及び図書館情報学研究の拡張

・日本の教育、教育課程

・地域アーカイブの実態(とくに福島、沖縄、北海道)

・つくば市小田の歴史的位置付けと関東内海の関係


【自著紹介(単著)】 

根本彰著 『文献世界の構造:書誌コントロール論序説』勁草書房1998.

根本彰著 『情報基盤としての図書館』 勁草書房 2002.

根本彰著 『情報基盤としての図書館・続』 勁草書房 2004.

根本彰著 『理想の図書館とは何か:知の公共性をめぐって』 ミネルヴァ書房 2011.

根本彰著『場所としての図書館・空間としての図書館:日本、アメリカ、ヨーロッパを見て歩く』学文社 2015.

根本彰著『情報リテラシーのための図書館:教育制度と図書館の改革』みすず書房 2017.

根本彰著『教育改革のための学校図書館』東京大学出版会 2019.

根本彰著『アーカイブの思想—言葉を知に変える仕組み』みすず書房 2021.

根本彰著『図書館教育論:学校図書館の苦闘と可能性の歴史』東京大学出版会 2024.

根本彰著『知の図書館情報学―ドキュメント・アーカイブ・レファレンスの本質』丸善出版, 2024.


【自著紹介(共著・編著)】 

マイケル・H・ハリス著, 根本彰編訳『図書館の社会理論』青弓社, 1991.

三浦逸雄, 根本彰共著『コレクションの形成と管理』 (講座図書館の理論と実際 第2巻)雄山閣出版, 1993.

三浦逸雄監修,根本彰他編『図書館情報学の地平:50のキーワード』日本図書館協会,2005.

根本彰編『図書館情報学基礎』東京大学出版会 2013.(シリーズ図書館情報学1)

根本彰、岸田和明編『情報資源の組織化と活用』東京大学出版会 2013.(シリーズ図書館情報学2)

根本彰編『情報資源の社会制度と経営』東京大学出版会 2013.(シリーズ図書館情報学3)

石川徹也, 根本彰, 吉見俊哉編『つながる図書館・博物館・文書館:デジタル化時代の知の基盤づくりへ』東京大学出版会, 2014.

根本彰監修, 中村百合子他編『図書館情報学教育の戦後史』ミネルヴァ書房 2015. 

根本彰・齋藤泰則編『レファレンスサービスの射程と展開』日本図書館協会 2020.

日本図書館情報学会編『図書館情報学事典』丸善出版, 2023.(編集委員長)

相関図書館学方法論研究会(川崎良孝,三浦太郎)編, 吉田右子, 和気尚美, 金晶, 王凌, 根本彰, 中山愛理著『図書館思想の進展と図書館情報学の射程』松籟社 2024年4月(《図書館・文化・社会》第9巻)「探究を世界知につなげる:教育学と図書館情報学のあいだ」を執筆


【自著紹介(翻訳)】 

バーナ・L・パンジトア著, 根本彰他訳『公共図書館の運営原理』勁草書房 1993.

ウィリアム・ F・ バーゾール著, 根本彰 [ほか] 訳『電子図書館の神話』勁草書房, 1996.

アリステア・ブラック,デーブ マディマン著, 根本彰, 三浦太郎訳『コミュニティのための図書館』東京大学出版会, 2004.

リチャード・ルービン著, 根本彰訳『図書館情報学概論』東京大学出版会, 2014.

アンソニー・ティルク著, 根本彰監訳, 中田彩, 松田ユリ子訳 『国際バカロレア教育と学校図書館ー探究学習を支援する』学文社 2021.

アレックス・ライト著, 鈴木和博訳, 根本彰解説『世界目録をつくろうとした男:奇才ポール・オトレと情報化時代の誕生』みすず書房, 2024年5月

マーティン・フリッケ著 根本彰訳『人工知能とライブラリアンシップ』2024年10月https://oda-senin.blogspot.com/2024/10/blog-post.html (オープンデータ)


ライブラリアンシップとは何か:生成AIと図書館(1)

 ノーベル物理学賞と化学賞がどちらも生成AIに関連したものであることから,またまたこの技術に注目が集まっている。ノーベル賞は2020年代になってから,科学分野の基礎理論よりも応用技術や社会的インパクトのある方法的発見に目が向けられるようになった。19世紀末に亡くなったアルフレッド・ノーベルの遺産で始まったノーベル賞が想定した学術的なジャンルという概念はとうに古びたものになり,理論と技術と社会との関係がかつて以上に相互的なものととらえられているのかもしれない。その意味で,今年のノーベル平和賞は日本原水爆被害者団体協議会(日本被団協)という国際的にはほとんど知られていなかった日本のNPO(この団体は法的性格を公表していないようだが,一般的意味での非営利組織としておく)が受賞し,経済学賞にトルコ出身でMITに所属するアセモグルを含めた社会経済学者3名が受賞したことを含めて,国際関係,経済,社会が新たな展開に入ったことを示す兆候に対して,アルフレッド・ノーベルの最初の理念に戻った観点から受賞者を選択したのではないかと思われる。

生成AIについてはこれが私たちの生活の深いところから影響を与えるものとなっていることは改めて言うまでもない。図書館情報学においても,これをどのように用いるのかについての議論はすでにいろいろ書かれたり,論じられたりしている。そこでは他の職業領域と同様に,図書館員はAIに取って代わられるのか,というのが中心的な問いになっている。ここでは,マーティン・フリッケ著(根本彰訳)『人工知能とライブラリアンシップ』を選んで日本語訳を作成した経験から何が言えるのかについて考えてみたい。

エミリー・ディキンソン風に表現したライブラリアンシップ

まず,ライブラリアンシップ(librarianship)という言葉そのものが耳馴染みがないと感じる人がいるだろうから,これから説明する。ライブラリアンが図書館員のことであることは想像がつくだろうが,ライブラリアンシップとは文字通り訳せば「図書館員魂」とでもなるような用語で,英語圏の図書館界では今でもよく使われる。かつて使われた図書館学(library science)も同じような意味があるが,そちらはもっと堅い感じである。ライブラリアンシップは図書館員がもつ知識とスキルの全体を指すややくだけた言葉である。これを使うのはベテランの図書館員が多いし,学術的には図書館情報学(library and information science)が使われる。また,情報学(information science)も同じ領域を指す用語という考え方をする人たちも多い。それは言うまでもなくこの領域が情報技術と切っても切れない関係があるからである。ライブラリアンシップを今でも使う図書館員が多いのは,情報技術に還元されない部分を強調したいからだろう。

本書302ページに示されている,「ライブラリアンシップをエミリー・ディキンソン風に表現する」というプロンプトに対して生成AIが作成した回答の訳をみてほしい。

「図書館員は,その静かな優雅さをもって,書かれた言葉の番人を務める。彼女は書架の間を歩き回り,知識の優しい守護者となる。彼女が本を取り出すたびに,彼女の目の前に新しい世界が広がる。彼女は真実の探求者であり,言語の愛好家であり,アイデアの守護者だ。彼女の手は,長年ページを繰ってきたためタコだらけだが,彼女の精神は壊れていない。彼女は秘密の番人であり,夢の提供者であり,学問の擁護者だ。図書館員は宝であり,知恵と驚異の稀有な宝石だ。」

 ここにはいくつもの興味深い表現が見られる。まず,ここで描かれたライブラリアンシップ像である。前半には,書かれた言葉の番人,知識の守護者,真実の探求者,言葉の愛好家,アイディアの守護者というような表現が並んでいる。よく見れば,どれも同じような概念を言葉を変えて言い換えたように見える。最後にある,秘密の番人,夢の提供者,学問の擁護者も同じだ。要するに,なかなか到達できない書き言葉の世界を扱っていることをこれだけの形容語で表現したということができる。図書館員が書き言葉の管理者であって,その書き言葉は,知識や真実,アイディア,秘密,夢,学問といったものを内包しているから,管理者はこれだけのものを提供できる。そして最後に「宝であり,知恵と驚異の稀有な宝石」という最大限の賛辞を送るわけだ。

そうした図書館員の役割の記述以外にここで表現されているものは,一つは「静かな優雅さ」という言葉である。そのあとに「彼女」とあるように,女性性と密接な関係をもつ。ディキンソンは,19世紀アメリカの女流詩人でピューリタンの上流階級の家に生まれ,早くから詩作に目覚めて,生涯,その修辞的な技巧と内向的でセンチメンタルな表現の詩作をすることで知られていた。(日本語版Wikipediaにかなり長い解説がある。)このあたりの表現はそれを反映しているのかもしれない。ただし,図書館員と女性性をつなげる考え方がフェミニズムの観点から批判されていることは確かだ。(参照:ディー・ギャリソン (田口瑛子訳)『文化の使徒 : 公共図書館・女性・アメリカ社会, 1876-1920年』日本図書館研究会, 1996)ここには,残されているテキストの文化的偏差が反映しているということも言える。

エミリー・ディキンソン肖像画

もう一つは「長年ページを繰ってきたためタコだらけだが,彼女の精神は壊れていない。」という表現だ。前半は図書館員の仕事から来るものなのだろう。後半の「精神は壊れていない」というのをどのように理解したらよいのだろうか。書物の世界に耽溺しすぎることで精神に変調を来すというのは西洋の知的世界では言われていたことは確かだ。作家のなかではヴァージニア・ウルフやカフカ,エドガー・アラン・ポーなどがそうした傾向のあった人と言われる。だから,ここでは図書館員は書物の世界に入ってはいるが,仕事としているので精神に変調を来すことはないという意味なのだろう。

作家の文体とは何かー大規模言語モデルの実験

ともかく,この文章はエミリー・ディキンソン風の文体によって西洋における図書館員というものの(ステレオタイプ的な)特性を言い表しているということができる。このような文体がどのようにして「生成」されるのかについて,詳細なところは公表されていないが,仕組みの大つかみなところはすでにいろいろと解説されている。生成AIの大規模言語モデルがどのように言葉を生成するのかについて,フリッケは本書で,大規模な書き言葉の集積があって,それらを処理単位(トークン)に分割したものを多次元的なベクトルとして数値化・データベース化し,類似度を計算することを繰り返してつくり上げられると述べる。その際に,テキストからの埋め込み(embedding)が行われ,ベクトルはトークンとトークンの関係を確率的に計算する学習を繰り返すことにより,「意味」が形成されるという。おそらくは「文体」もまたそうした確率的関係によって決定されるのだろう。

という説明だけでは理解しにくいので,フリッケに倣って,試しに,ChatGPTに対して,「図書館員の仕事を*風に表現してください」という質問をしてみたところ,次のような結果となった。*に入力したのは,1.与謝野晶子,2.川端康成,3.小松左京である。

1. 図書館員の仕事を与謝野晶子風に表現してください

ChatGPT:

図書館員の仕事は、まるで静かな庭に咲く花々を愛でるようなものです。書物の一冊一冊が、心の奥深くにひっそりと寄り添い、時に熱く、時に冷たく、さまざまな感情を呼び起こします。

訪れる人々は、何かを求めてこの場所に足を運び、その瞳には希望が宿ります。その瞬間、私は彼らの心を受け止め、彼らが探し求める物語へと導く役割を担います。本のページをめくる指先に触れると、まるで詩の一行が静かに流れ出すようで、私自身もその言葉に心を奪われていくのです。

図書館は、言葉が織りなす小宇宙。さまざまな人々の思いが交差し、共鳴しあう場所。私もまた、その中で一つの声として存在し、言葉の力を信じ、ひたむきにその使命を果たしていきます。

この静けさの中に、感動と喜びが満ち溢れ、心の奥に潜む情熱をかき立てられる。私の仕事は、書物を通じて生きる喜びを分かち合うこと。言葉の花を育てることで、訪れる人々の心を彩り続けたいのです。


2. 図書館員の仕事を川端康成風に表現してください

ChatGPT:

図書館員という職は、静寂の中に佇むひとりの旅人のようなものだ。書架に並ぶ本たちは、まるで長い旅路を経て、今ここに集まった思い出のように感じられる。それぞれのページには、遠い国の風景や、忘れられた人々の声が宿っている。

私はその本たちの案内人であり、訪れる人々に物語の扉を開く役目を果たす。彼らの目に浮かぶ期待や好奇心は、私の心にも温かな光を与える。薄暗い図書館の中、静かに本を手に取る音が響き、その瞬間に小さな宇宙が広がるのを感じる。

外の世界の喧騒は遠くに感じられ、ここでは時間がゆっくりと流れている。人々が本に触れることで、心の奥深くにある何かに触れ、過去と未来が交わる瞬間が生まれる。その瞬間に、私は自分自身もまた、書物の中の一ページになっていくのだ。

図書館はただの場所ではなく、思索と感動が交錯する聖域。そこにいることで、私は人間の営みの深さを感じ、また一歩、静かな旅へと誘われていく。


3. 図書館員の仕事を小松左京風に表現してください

ChatGPT:

図書館員の仕事は、まるで無限の宇宙を航海する宇宙飛行士のようなものだ。無数の書物は、銀河の星々のように、さまざまな物語や知識を秘めている。私はその星々の間を行き来し、訪れる人々に未知の世界を紹介する役割を担っている。

静かな書架の間を歩くと、時折、誰も知らない宇宙の秘密が耳をかすめるような気がする。ページをめくる音は、星の輝きが響く音楽のようで、心に不思議な感動を与える。私が手にする本の中には、異次元の思考や未来の予感が詰まっているのだ。

しかし、この空間は単なる情報の集積ではない。人々が訪れ、夢を語り、思索を重ねることで、ここは生きた場となる。図書館は、未来を探るための実験室でもあり、過去を解き明かすための考古学的な現場でもある。

私は、これらの知識の星々を繋ぎ、未来の探求者たちを導く道しるべとなる。やがて、彼らが持ち帰る知識や感動が、新たな宇宙を創造していくのだ。その瞬間こそが、図書館員としての私の存在意義であり、無限の可能性を感じる瞬間でもある。

どうだろうか。見事にそれぞれの作家の特徴を反映した文体で図書館員の仕事が表現されている。しかし,今,文体という言葉を使ったが先ほどの大規模言語モデルの説明に照らし合わせてみると,これを文体といってよいのか疑問も沸いてくる。要するに,それぞれの作家が使いそうな語を組み合わせて出力しているにすぎないのではないかと。

AIがしていることは,言葉と言葉がどのような関係で結びついているのかを確率計算によってつくりあげたベクトルデータベースに対して,プロンプト(質問)が与えられて,それによってつくられたベクトルデータとの一致度の高いものを再構成しているということである。この場合のプロンプトのデータは,「図書館員」,「仕事」,「作家*」である。推測できるのは,「作家*」が使用していたり,その人について書かれたりしたものの膨大なテキスト群があり,そのベクトルデータがつくられる。同様に,「図書館員」,「仕事」についてもデータがある。そして,それらが1つのプロンプトで表現されたときに,3つの言葉に共通する要素の多元的な言語空間が計算によって出力されて,それが文章として示される。

文章はいずれもステレオタイプと言えば言えないこともない。最初に「〜のようなものだ」で始まり,その「〜」にちなんだ経験が語られ,図書館員(あるいは私)がそこで何をしているのかの説明がある。そのときに,それぞれの作家が用いそうな語,表現が連続的に出てくるので,確かにその作家の文体だと思わせる効果がある。ともかく,短い文章ではあるが,文章の流れがしっかりしている。起承転結があるといってもよい。おそらく,ChatGPTは標準でこのような4段落の文体で流れをつくるように仕組まれているのだろう。

本当のところ,「文体」がこのような説明で可能なのかはよくは分からない。文体というのが特定作家が使う確率の高い用語の集合体にすぎないとすれば,ここまでの説明で足りるのかもしれない。しかし,与謝野晶子のものが,「ですます調」で,他の2つが「だである調」であるのは偶然ではないだろうし,単なる用語の集合体というだけではすまない,語と語のつながりに対する「深層的」結びつきがみられる。この「深層」こそがキーワードであり,そこでは思想も知識も文体もが「生成」される。それがたとえ計算に計算を重ねたものだとしても,「人工」「知能」に見えてしまうのだ。

作家の文体についての追加考察

文学における論理についてもう少し考察しておこう。たとえば,与謝野晶子と小松左京のように個性が違った作家の文体で図書館員の仕事を表現したときにどのような違いがあるのかを見てみよう。

まず,図書館員の仕事の特性。

[晶子]図書館員の仕事は、まるで静かな庭に咲く花々を愛でるようなものです。書物の一冊一冊が、心の奥深くにひっそりと寄り添い、時に熱く、時に冷たく、さまざまな感情を呼び起こします。

訪れる人々は、何かを求めてこの場所に足を運び、その瞳には希望が宿ります。その瞬間、私は彼らの心を受け止め、彼らが探し求める物語へと導く役割を担います。

[左京]図書館員の仕事は、まるで無限の宇宙を航海する宇宙飛行士のようなものだ。無数の書物は、銀河の星々のように、さまざまな物語や知識を秘めている。私はその星々の間を行き来し、訪れる人々に未知の世界を紹介する役割を担っている。

仕事の比喩においては,それぞれ,「花々を愛でる」と「宇宙を航海する」となっている。具体的に,晶子は「心の奥深くにひっそりと寄り添い...さまざまな感情を呼び起こ」す書物を求める人々の「心を受け止め,彼らが探し求める物語へと導く役割を担」うとしているのに対し,左京は書物が「さまざまな物語や知識を秘めている」から,図書館員はそれらの「間を行き来し,おとずれる人々に未知の世界を紹介する役割を担っている」としている。図書館員の仕事が,書物の世界に親しんだ上でそれを人々に媒介する役割をもつことでは共通している。これは康成の文体でも同様である。

次に扱うものが「花々」と「星々」,仕事の中身が「心を受け止め,彼らが探し求める物語へと導く」と「未知の世界を紹介する」というような違いに目を向けてみよう。花は書物がもつ感性的な側面,星は書物がもつ知的な側面を強調した表現であり,晶子は,感性的なものを物語世界へとつなげるとするし,左京は「知識の星々を繋ぎ、未来の探求者たちを導く道しるべとなる」とするような違いとなって現れる。これらは,それぞれが作家の個性を反映した論理的な表現であるだけでなく,図書館員の仕事の性格をうまく描いている。文学的な論理の表現の仕方が異なっているだけである。このことを文体と言っていたわけだ。

AIは図書館員のためのツールである

生成AIが日米の4人の作家の表現として示した図書館員の仕事あるいはライブラリアンシップは,書物に関わるという点で共通しているが,その関わり方にはそれぞれ特徴があっておもしろかった。それにしてもなぜこれが可能になるのかについては,今後ともいろんな領域で言及が進むだろう。ただしそういうものを研究というのは少し変な感じもする。生成AIの仕様や具体的なアルゴリズムは人間がつくったものであるからだ。確かに,将棋や囲碁のプロたちはAIを使って「研究」しているらしい。将棋や囲碁のような「論理」と「戦略」の組み合わせを研究するというのは分かる。しかしながら,人間がつくったものがブラックボックス化しているからといって,それを手探りで見ていくというのはおかしくはないだろうか。これが学術研究になるためには,これらをつくっている企業が率先して情報を開示する必要があるというのが,従来のこうしたもののとらえ方だった。

だが,これは人間がつくった法律とか政治の仕組みとかが研究対象になるのと同じなのかもしれない。個別には目的と方法や運用が言葉で表現できるようなものになっているが,それが相互に絡み合いながら複合化してきわめて複雑なシステムになっている。それを部分的に解明しようとするのが社会科学である。同様に,大規模言語モデルも,人間の手が入っているとしてもそれが複雑になり,かつ,(人手を介さない)自己学習を繰り返している。つまりすでに人知を超えたものになっている。また,法律や政治とまた違った意味で人や社会に影響を及ぼすものになっている。だから研究も必要になるのだろう。

AIにこんなこともできる,あんなこともできるということがよく言われるのだが,ここでもこのように示されると驚異であった。しかしながら,それが図書館員にとっての脅威にならないかというのが多くの関係者の不安でもある。そのことに対して,フリッケは本書で,このツールを使いこなすことが重要だと言うだけでなく,図書館員はもともと情報ストックの管理者であったのだから,AIとユーザーをつなぐことが託された位置付けになることを強調している。そのことについて,に書きたい。







2024-10-20

『人工知能とライブラリアンシップ』の概要紹介

別ページで公開したマーティン・フリッケ『人工知能とライブラリアンシップ』の概要を紹介します。この本は,最新の生成AIの技術的知識を,きわめて高い水準を保ちながら分かりやすく解説し,それが図書館員の仕事とどのような関係になるのかを説明したものです。生成AIは大規模言語モデルを用いて,従来の情報検索や全文検索とは異なる知への新しいアプローチを提供していて話題を集めています。図書館員の仕事も文献の蓄積に対してアクセスすることを支援するものですから,この技術をうまく使うことで大きな力となるはずです。

しかしながら,そこには気をつけなければならない多数の問題があります。それを著者はていねいに記述していきます。全部で15章の本文に付録と用語集,文献一覧を含み,A4判で400ページ近くになる大著です。簡単に読みこなすことは難しいように思われるかもしれません。

全体としては,本文の1章から5章までは生成AIの技術的解説とその特性についての説明,6章から9章は生成AIがはらむ倫理的問題点とそれがライブラリアンシップとどのような関係になるのかの解説,そして10章から15章がライブラリアンシップにとって生成AIをどのように使いこなすべきなのかの話しです。とくに図書館関係の方は10章〜15章を先に目を通すと読みやすいかもしれません。お急ぎの方は,図書館員の役割を概説している10章と将来展望を述べている15章だけでも読むと,著者が図書館にどのような希望を込めているのかがわかります。



<目次>

第1章  知的背景
第2章  チャットボット
第3章  言語モデル
第4章  大規模言語モデル
第5章  大規模マルチモーダルモデル
第6章  評価と将来
第7章  バイアスと不公平
第8章  機械学習とライブラリアンシップにおけるバイアス
第9章  自然言語処理(NLP)はライブラリアンシップに何をもたらすだろうか?
第10章  図書館員にとってどんな機会になるか?
第11章  シナジストとしての図書館員
第12章  セントリーとしての図書館員
第13章  エデュケーターとしての図書館員
第14章  マネジャーとしての図書館員
第15章  アストロノートとしての図書館員


第1章 知的背景 

今起こっているAIについての技術的進展の最先端がどのようなものであり,そこで使われている技術の概要についての紹介。とくにライブラリアンシップにとって重要なテキストやそこへのアクセス問題(テキスト読み上げや機械翻訳,情報検索,アーカイブなど)と今の技術がどのような関係にあるのかについて記述している。また,AIの本質が機械学習にあること,そして,そこで学習のための「教師」がテキストによるトレーニングセットで構成されること,テキスト作成のためのOCR技術の重要性が解説される。教師あり,教師なしなどの組み合わせでトレーニングされ,さらに次の段階として自己教育が可能になる。これが,機械学習のポイントである。

第2章 チャットボット

コンピュータ画面でAIと対話しながら情報を得たり,何らかの指示を出したりするチャットボットの仕組みについての解説。こうしたシステムも初期のプログラム化されたエキスパートシステムから現在の深層学習に変わって大きく進化した。機械との対話が自然であるかどうかを見分けるためのチューリングテストにパスするようなものが現れている。深層学習による機械学習を理解するためには,テキストに現れていない意味(含意)を理解できるようにする必要があることが述べられる。

第3章 言語モデル

ここでは,言語学習がどのように行われるのかについての基本的な理論の解説を行っている。テキストを構成する文字の並びから次の文字を予想するために,確率的に言語のつながりを計算する手法である隠れマルコフモデルという考え方を導入する。シャノンは,英語の文字のシーケンスの確率に着目した。これによってサンプルデータからの学習の方法(ベイビーGPT)が示される。その方法が実際の大規模データで長期間をかけ,評価とフィードバックを含めて実行されてできたものがGPT等の大規模言語モデルである。学習の方法としてベクトルで表現した単語の「埋め込み」を行いそれを修正しながら学習していく。このようにして言語モデルから出力される文は知識や真実と乖離していることも多いが,それらに対して,教師あり学習の微調整や人間の評価者による強化学習によって知識や意味の要素を加えていくプロセスとしてInstructGPTがある。

第4章 大規模言語モデル

こうした言語モデルを大規模に高速に実行する方法について詳細に述べているのが,この章である。ここでは,効果的に言語を処理するために注目すべき語やシーケンスに重み付けをするためのアテンションや並列処理を可能にするトランスフォーマーといった最近開発された技術について解説される。さらに,大規模言語モデルの自己監督機能を使用してモデルを事前トレーニングし,次に微調整を施してモデルを下流のタスクに適したものにしていく過程を繰り返したものが基盤モデルと呼ばれる。基盤モデルはテキストだけでなく,音声,画像,映像などのマルチモーダルなドキュメントを同時に扱うことも可能になっている。こうして現れたのがGPT-3,GPT-3.5,GPT-4などの生成AIである。これらの多くはチャットボットのようなエージェント(質問応答形式)で提供されている。具体的な例として,本(AIと研究図書館のライブラリアンシップ)のアウトラインをつくっているプロセスを示している。こういうLLMの仕組みの解説から,問題点として,幻覚(ハルシネ—ション),フェイク,知財,プライバシー,チョムスキー理論との関係,サイバーセキュリティ,透明性の欠如,環境コスト,推論に弱いなどの問題点を指摘している。

第5章 大規模マルチモーダルモデル

画像や音声,映像を解析して対話的に応答できるLMMはLLMの一種と考えることができる。画像内のテキストや数値を読む,ただし,これを使う際には,マルチモーダルであることによるプライバシーやステレオタイプ,障害者への配慮などの安全面の配慮事項がありうる。LMMを使って説明したり,推論したりする例が多数紹介されている。ルネサンスの絵画を見ての美術史の解説,科学的知識と組み合わせての教育指導案,寿司の作り方の手順の写真から作成順序を推論,外的世界との関係ではロボットに買い物の指示をする事例など。これうして,現実世界とマルチモーダルな関係でつながる可能性が高まった。2024年になると,GPT-4 ターボ(OpenAI),Gemini(Google),Claude(Anthropic)など各社がLMMの拡張版を一斉に発表した。これによってできることはたくさんある。たとえば,スマホで撮影した画像からテキストを抽出すること,二つの画像の違いを見分けること,医療用画像の説明,画像の生成,画像の分類やラベル付け,情報検索の拡張といったものだ。

第6章 評価と将来

AI は主に信頼性とアラインメントの概念を使用して評価する。信頼性は一貫していることであり,アラインメントはモデルの予測や動作が,期待される,望ましい,または意図された結果とぴたりと一致することだ。LMM で何ができるかを理解する方法の 1 つは,一般的なベンチマークを見ることで,ここでは評価のためのツールとしてMT-Bench ,Chatbot Arena,A12 Reasoning Challenge,MMLU などがあり,それぞれの特徴が説明される。さらにコンピュータ コードの作成に特化したベンチマークとしていくつかを紹介している。「汎用人工知能(AGI)」を評価するための ARC-AGIベンチマークというものもある。最後に,カーツワイルの「シンギュラリティ」が起こるかどうかについて,アッシェンブレンナーが行った今後10年の予測記事の紹介があり,2027 年頃までに AGI が登場し,その1年後くらいにそれらを遙かに上回る人工超知能(ASI)が現れる可能性がある。これを最初に手に入れた者に決定的な軍事的および政治的優位性をもたらす可能性がある。AGIからASIへの飛躍の鍵は重み付けにあるので,セキュリティがきわめて重要である。

第7章 バイアスと不公平

ここからは,AIがもたらす倫理的問題について突っ込んだ議論がある。まず,機械学習におけるバイアスとは,事前に設定された変数間の重み付けのことであり,それ自体には倫理的社会的問題は存在しない。また予測バイアスという用語が使われるがそれは予測値と実質値との偏差という意味だ。明らかなバイアス表現は対応すれば排除できるが,自然言語に含まれるバイアスの多くはバイアスと気づかれないままに機械学習の基になっている。また,アルゴリズムは中立的用語でそれ自体にバイアスはない。バイアスをもたらすものがあるとすれば,ソフトウェアの仕様である。ただし,コンピュータの学習や予測は自己監督によることで非経験的であり,それはさらに深層学習で行われることによって「バイアス」が生じることは防げない。機械学習のバイアスに対して知識をもつことが必要で,ここでは分配的正義の意味での公平性について,住宅ローン審査のシステムにおける閾値の設定問題を挙げて論じる。また,ジェンダーバイアス除去,顔認識の拡がりにおけるパノプティコン状況の成立,図書館の蔵書分類問題などについて論じる。AIに含まれる誤報,スパム,フィッシング,法的および行政的プロセスの悪用,不正な学術論文執筆,バイアスなどについてそれが起こる理由を推測できることが大事だ。スマホを使うすべての人はプログラマーであり,図書館員は「情報リテラシー」の専門家である。

第8章  機械学習とライブラリアンシップにおけるバイアス

大規模言語処理に伴うバイアス問題をさらに分析する。とくに,どのようなシステムの動作が,誰に対して,なぜ有害であるか,これらの記述の根底にある規範的推論がどのように行われるのか。機械学習,バイアス,ライブラリアンシップに交差するところがあることを理解する。次に,検索エンジンの特性がバイアスを生み出す問題として,システムがもつステミング,オートコンプリートなどのキーワード修正機能があり,個々のユーザーの個々の検索機会によって作動の仕方が変わることが論じられる。ソーシャルメディアは1日24時間休みなく偽情報,誤情報,虚偽情報を大量に生み出しているが,これらは機械学習が翻訳や文章書き換えなどによってさらに強化しており,学習成果としてバイアスが紛れ込む。ライブラリアンシップの情報組織化において,「文献的根拠(literary warrant)」という概念が疑われて,かつてのツールのバイアスが問われるようになり,LCSH等のバイアスが問題になった。また,文献がネット上に無数にあるときに,「ユーザー的根拠」なのか「文化的根拠」なのかが問われるようになった。機械学習によってこれらの一部を技術的に解決することが可能である。分類という行為は二分する結果をもたらすことで責任を伴う。分類や件名標目,メタデータの選択はすべてある種の文化的行為であるが,どの文化的背景に基づくかの闘争があった。今,それが無秩序に拡がるLMMがツールとなったときに,図書館員が行ってきた議論や積み重ねてきた倫理的判断は役に立つはずである。

第9章 自然言語処理(NLP)はライブラリアンシップに何をもたらすだろうか?

自然言語処理についての技術的解説をすることによって,テキストをいじってLLMを構築する際にどのようなことが起こるのかを理解する。まず前処理を行って,テキストから余分なものを削除し分割したり正規化したりして,処理の最小単位であるトークン化する。その文字列から数値のベクトル (つまりリスト) を生成する。情報検索はクエリの文字列のベクトルとテキストの文字列のベクトルがどの程度類似しているかを評価して行う。類似するが異なる語でも埋め込まれたベクトルは類似性が高いことから検索が可能になる。単語だけでなく,チャンク(章,ページ,段落,文)でも同じことが可能である。また,検索だけでなく,テキストとテキストを対応させる処理(分類,レコメンド,トピックの抽出,固有名の処理)などでも同様であるから,図書館で行っている知的な処理(書架分類,書誌分類,統制語彙,索引法,自動索引,抄録,抜粋,キーフレーズ,キーワード,要約)のほとんどに適用可能である。これらについて一つ一つ解説している。ここで説明されたNLPの技術は,プログラマー (または図書館技術サービス部門) が大規模言語モデル (LLM) を使用し,公開アプリケーション プログラミング インターフェイス (API) を持つものを使用する適切なソフトウェアを作成することで利用可能である。

第10章 図書館員にとってどんな機会になるか?

エドワード・ファイゲンバウム (「エキスパート システムの父」) が,未来の図書館がAI を知識サーバーとして書物と書物が対話することを述べている。これはライブラリアンシップを考えるヒントになる。今,大量のボーンデジタルデータが生み出されビッグデータが問題になっているが,これらを扱えるのはLMMを使いこなすライブラリアンシップである。そのために,図書館員の役割を「シナジスト(相乗効果の仕掛け人)」「セントリー(監視者)」「エデュケーター(教育者)」「マネージャー(管理者)」「アストロノート(宇宙飛行士)」という5つのカテゴリーに分けて次章以降の各章で特性を検討する。ここでは頭出しで,たとえばシナジストは,AIはOCRや翻訳などによって情報アクセスを以前より容易にし知的自由を高める。スマホは情報へのアクセス機会をいっそう向上させる。ユーザーとリソースの仲介においても検索のレコメンドをしてくれる等々である。つまり,AIをライブラリアンシップにうまく組み込むことによって,AIの能力をライブラリアンシップの手法で向上させられるという役割である。セントリー(監視者)は,AIがもたらす進歩につきものの問題,とくに倫理的問題をチェックする役割である。エデュケーター(教育者)は,情報リテラシーやデータリテラシーへの対応である。マネージャーは図書館運営においてAIをうまく取り入れることである。アストロノート(宇宙飛行士)は,図書館が知識の宝庫であることでAIを駆使した知識の創造などに関わるということを言っている。

第11章 シナジストとしての図書館員

図書館における知的自由には,特権(自由権)と請求権的な側面がある。両方の意味での知的自由を保証しようとする。図書館員が多言語環境や古い活字本や手書きの本,オーディオ資料の文字変換,手話からテキストへの変換,翻訳等々を処理しなければならないときに,OCRや文字認識,音声認識,映像処理,翻訳のプログラムが何をしているのかを理解することが重要である。また,ユーザーとリソースをつなぐために知っておくべきことがある。たとえば検索エンジンのPageRankや機械学習が何をしているのか,商用情報検索システムがクエリとその応答とどう関係づけられているのか。個人情報と結びつけることで,レコメンドが可能になる。目録作成,分類,検索ツールについては,従来,ユーザーが仕組みを理解した上で使うという前提をやめて,機械学習がそのギャップを埋めてくれることを前提としたサービスに切り替える。そのために,機械学習のトレーニングにこうした分野の専門家がフィードバックを提供する。また,書誌作成,目録維持,引用・参照の分析,書評執筆,事典の編纂,チャットボットによるレファレンスサービス,パスファインダーなどにおいて,機械学習を用いたライブラリアンシップの向上が可能である。図書館が蓄積しているデータやノウハウがトレーニングデータの提供やキュレーションに貢献する。社会認識論に関わることとして,ファクトチェック,認知バイアスの軽減,真実主義のチェックなどに図書館員のノウハウは貢献する。

第12章 セントリーとしての図書館員

セントリーとは監視員という意味である。機械学習において,カスタマイズ,フィルター,レコメンドなどの機能は結果として検閲的に働くことがありうる。個人情報についても,パーソナライズのサービスが個人情報の目的外使用とバランスをとる必要がある。図書館員は知的自由を主張してきたが,アルゴリズムによるキュレーションを用いることで機械学習のバイアスやパターナリズムなどの意図せざる働きに対する歯止めになる可能性をもつ。それは,社会認識論的にも重要である。LLMがもたらす失業問題について,定型的な反復作業の自動化が進み,労働者はより複雑で価値の高い作業に取り組めるようになるというのが標準的な議論だが,失業がないという意味ではない。アセモグルは短期的には「そこそこの自動化」にとどまり,労働者の地位は下がるかもしれないが生産性の大きな向上にはつながらないと主張している。

第13章 エデュケーターとしての図書館員

情報消費者のためのAIリテラシーの中身は,アルゴリズムとその仕組み,AIツール(例えば第5章で述べたもの)とそれらが提供する情報についての批判的理解,バイアス,プライバシー,顔認識技術,研究ガイダンス,社会認識論といったものだ。研究ガイダンスとしては(図書館員は,機械学習ツールを使用してデータを分析する研究者を指導できる。これには,使用する適切なアルゴリズムに関するアドバイスの提供,結果の解釈の支援,研究が倫理的に実施されていることの確認などが含まれる。学習はよりパーソナライズされるようになり,個々の学生,講師,グループやクラスの学習データと分析が必要になり,図書館の利用データもその一部になる。大学図書館にAIラボをつくり,学生とインストラクターに新しいコンピューティング スキルを学ぶ機会を提供する事例が紹介される。個人情報の扱いは問題になる。研究面では,学術論文をフィルタリングし,評価し,発信するアルゴリズムが学術論文やジャーナルに取って代わりつつある。最後に,EUの「一般データ保護規則(GDPR)」22条では,プロファイリングを含む自動化された個人意思決定について,個人データを使用する際の注意の必要性と,下された個々の決定の説明の必要性を強調している。きわめて重要だ。特定の大企業がLMMをつくって世界中からデータを集めると様々な局面での意思決定に影響を及ぼす。説明可能な人工知能 (Explainable Artificial Intelligence: XAI) についての研究分野があるが,ブラックボックス化したAIの中身を見えるようにする努力が必要だ。

第14章 マネジャーとしての図書館員

図書館員の関わる情報マネジメントにおいて,過去の使用パターンと傾向を入力とし,需要とニーズを予測する予測分析や,ユーザーの個人データないし集団データによる行動分析,ユーザーが教育や学習の目的でどのようなリソースを使用し,どのように使用しているかに関するデータによるラーニング アナリティクスなどがある。これらをAIを用いて分析することで,エビデンスに基づくマネジメントが可能になる。こうしたことに対する忌避感やAIに対する恐れがあるようだ。しかしAI を,バイアス,誤用,差別のリスクと戦う積極的なプレーヤーとして受け入れる 図書館が情報マネジメントの分野で人工知能アプリケーションの実装に積極的な役割を果たせば,プログラマーがアルゴリズムに最適なデータを見つけるのを支援できる。

第15章: アストロノートとしての図書館員

ライブラリアンシップや情報キュレーション分野で,現代の機械学習が既存のものより際立った優位性を持つ可能性がある 3 つの分野は,データの視覚化,チャットボット,テキスト データ マイニングを含む情報発見だ。最後に,1986年のドン・スワンソン論文「未発見の公共知識」は,ライブラリアンシップが新しい創造的な領域を開拓する可能性を示した。それは,研究領域で未発見の2つの領域をつなぐためのデータマイニングの手法を提案するものであり,実際に,医学領域でその分野が開拓された。また,その手法は「文献に基づく発見Literature-Based Discovery」ないし「(テキストに基づく情報学Text Based Informatic」と呼ばれる。これは哲学者カール・ポパーの客観的知識論における「世界3」の開拓という意味合いもある。

付録A ライブラリアンシップの理論的背景
図書館情報学の知識組織論的な理論的背景について概説している。扱うのは,概念,分類,統制語彙,シソーラス,オントロジー,認識論などである。

付録B 大規模言語モデル(LLM) の操作
少し技術的な運用面に踏み込んで,Chat GPTなどのLLMと呼ばれるものの利用の仕方について解説している。

付録C 2つの重要な方法論的ポイント
主として統計学的な分析をするときの方法論的概念として,「偽陽性と偽陰性」と「 ベースレートの誤謬」について改めて詳しく解説している。

付録D 因果関係図
因果関係を→を用いて図示する手法についての解説である。

付録E ナレッジグラフ
人物,場所,物,日付などのオブジェクト間の関係をリンクで図示するナレッジグラフは情報発見のツールとして用いられる。

用語集
本文で出てきた重要な用語を解説している。

Bibliography
引用・参照されている文献一覧

マーティン・フリッケ『人工知能とライブラリアンシップ』の公開

マーティン・フリッケ著(根本彰訳)『人工知能とライブラリアンシップ』

本書はMartin Frické, Artificial Intelligence and Librarianship: Notes for Teaching, 3rd Edition(SoftOption ® Ltd,.2024年8月)の全訳である。次をクリックすればダウンロードできる。

『人工知能とライブラリアンシップ』第3版 日本語訳1.01版(PDF)

本文冒頭の「著者のメモ」で述べられているように,この領域は急速に展開している。著者は今後も本書を改訂し続ける可能性があるが,本書の本質的な部分は変わらないと思われるので,この版を翻訳した。

原著は次のページに置いてある。

https://softoption.us/AIandLibrarianship

https://open.umn.edu/opentextbooks/textbooks/artificial-intelligence-and-librarianship

本書冒頭(「タイトルページ裏」)で,著者は本書をCC BY 4.0でオープン化することを宣言している。著者の意図に配慮し,日本語版も同様の方法で公開することにした。著者のページでも,この日本語訳へのリンクが張られている。

本書の概要についてはブログの別ページに置いてある。

2024-10-20『人工知能とライブラリアンシップ』の概要紹介

また,翻訳の経緯・著者紹介について以下で紹介する。

2024-10-23 ライブラリアンシップとは何か:生成AIと図書館(1)

2024-10-25 なぜこの本を翻訳したのか:生成AIと図書館(2)