ページ

2024-10-25

なぜこの本を翻訳したのか:生成AIと図書館(2)

 マーティン・フリッケ著『人工知能とライブラリアンシップ』を1ヶ月で翻訳した。できた訳稿は全部で40万字,大判で400ページ近くある大きな本になった。かつてなら1年くらいかけないとできないようなものが短期間でできたのは,AIの力を借りたことが大きい。翻訳ソフトの能力が各段にアップしたと感じたのは,ここ2〜3年である。実は,まもなく発売になる『知の図書館情報学』の8章,9章で外国の理論を紹介している部分についても,これを使ったことで各段に執筆が進んだ。また「知識組織化研究会(KORG_J)」においても利用している。もう憚る必要がないほどに活用せざるをえないものがある。何しろ,そのまま日本語として読める文章を出力してくれるのだ。まだ誤訳はあるにせよ,その領域に精通していれば,おかしなところを自分で容易に修正できる。だから,この本の翻訳についても,それほど苦労はしなかった。

前回,書いたように,作家の文体を真似たように見える文章もよく見ると,何か変ということは言える。同じことを何度も繰り返しているからである。しかし作家も人によるが,繰り返すことも含めて自分の文体とするという考え方もある。しかし,翻訳となれば原文に寄り添う訳だから,少しの言い換えは問題にならない。何よりも著者が曖昧性を拝した論理的文章を書くのに長けた人であることに助けられたということは言えるだろう。

まず,著者がどういう人かを紹介する前にこの人のFrickéという姓の語尾をどう表記すべきかに少し悩んだ。このアクセント記号(アクサンテギュ)はフランス語で用いられ,通常は「エ」の音を示すと理解されている。たとえば,シネマはcinémaである。ところが,英語圏でこの音は「イ」と聞こえることも多い。たとえば。saké(酒)、Pokémon(ポケモン)は「サキ」「ポキモン」と発音する人が多い。たぶん,英語でeは弱いか聞こえないので多くの人は慣れないのだろう。フリケとするのが原音に近いのかもしれないが,小さな「ッ」を入れることにした。この方が日本人には発音しやすいからである。

フリッケ氏について

著者はアリゾナ大学情報学部名誉教授ということである。私にとっては,『知の図書館情報学』の第2章で扱ったDIKWピラミッドという概念を痛烈に批判した人というイメージだった。これはデータから情報が生まれ,情報から知識が生まれ,知識から知恵が生まれるという積み重ねモデルであり,LIS関係者も何となく信じていたところがある。しかし科学哲学の議論をベースに考えれば,たとえば科学的知識は観測データだけで生まれるものではなくて,すでにある情報や知識をベースに仮説が組み立てられ,それに基づきデータが集められることで検証され確定していく。決して下から積み重ねられるわけではない。このある意味で当たり前のことをずばり指摘していたところが印象的で,他の著書を読んでみたくなった。彼にはLogic and the Organization of Information(Springer, 2012)という本があり,Google Booksで全体に目を通すことができる。また,彼の大学のHPで,リンクされていたオープンデータのこの本を提供してくれている。

フリッケ氏の研究分野は「論理と図書館学」「暗号技術」「機械学習」ということである。もともと哲学を専攻したことがこうした論理学をベースにした図書館や情報技術への関心につながっている(文末注参照)。そしてプログラマーとしてのキャリアがあって,コンピュータ技術にも詳しい。彼は,図書館情報学と哲学,そしてコンピュータサイエンスの橋渡しのような立ち位置で仕事をしてきた。日本では他分野からこの領域に入って来た人はおうおうにして,この領域での反応の鈍さから,自分の領域から離れずにいることが多かったし,場合によっては新しい学会をつくってそちらで研究発表する例も多々見られた。アメリカでもそういう傾向はあるが,人によっては図書館ないし図書館情報学の発展にかかわろうとする人もいた。著者もそういう人の一人である。彼が,図書館情報学や情報学ではなく,ライブラリアンシップという領域名を使い続けているのもその現れである。

今回,他方ではヨーロッパの知識組織論事典の読書会をやり始めた。こちらは,LIS正統派の枠内にある,分類や主題,情報検索,索引,書誌,オントロジーなどの最近までの展開をきちんとレビューしておこうと考えてのものである。日本でもある程度のフォローはされている領域であるが,私自身はそういう技術領域と社会的・歴史的なものとの関係を理論的に把握しておきたいということがあった。そのために,社会認識論やドメイン分析などで深く幅広い議論が行われているこの事典を取り上げた。そうした動向と大規模言語モデルとがどのような関係になるのかは最初からもっていた疑問である。


本書の主張

フリッケ氏の論は,分類法や件名法のようにテキストに対して人的な処理をする手法,そして,テキストから取り出した文字列を機械的に照合する従来の情報検索の手法,そして,それとは異なってテキストから取り出したトークンやその集合体の相互関係をベクトル空間で表現してその関係を数値計算によって学習させるAIの手法,これら三者の比較という視点がはっきりしている。生成AIと呼ばれるものはそこに,用いられる言語ベースの規模の大きさと深層学習というプロセスが加わることで,「意味」が表現されることが重要である。それは,従来のIRシステムが語と語とのマッチングによってクエリとの関連を見ていたのに対して,各段に人間の学習に近いものが実現されている。ただし,著者はここでチョムスキー理論との関係についても述べている。チョムスキーは人間の言語能力は生得的なものであるとして,人はそのもって生まれた能力(生成文法)をもとにして外的世界から学んで言葉を獲得していくとした。それに対して,生成AIにそうした能力があるのではなくて,多数の言語の使用例を多次元で関係づける高速計算が一見すると意味の理解や意味の形成を可能にしているように見せているだけであるという。

生成AIにさまざまな落とし穴があることはこれまでも指摘されてきたことではある。(なお,2023年にチョムスキー本人が生成AIは「凡庸な悪」だと発言をしたことが伝わっている。)フリッケ氏はそれをひとつひとつていねいに指摘する。指摘されるのは,幻覚(ハルシネ—ション),フェイク,知的財産権に関わる問題,プライバシー,サイバーセキュリティ,透明性の欠如,環境コスト,推論に弱いなどの点である。総じてAIがもつバイアスをどう考えるについて,6章から9章までで具体的な例をもって示されている。

その上で,図書館員はどうすべきなのかを述べたのが10章から15章である。ここで,図書館員の役割を「シナジスト(相乗効果の仕掛け人)」「セントリー(監視者)」「エデュケーター(教育者)」「マネージャー(管理者)」「アストロノート(宇宙飛行士)」という5つのカテゴリーに分けて各章で詳しく述べる。シナジストとは,AIをライブラリアンシップにうまく組み込むことによって,AIの能力をライブラリアンシップの手法で向上させられるという役割のことである。セントリー(監視者)は,AIがもたらす進歩につきものの問題,とくに倫理的問題をチェックする役割である。エデュケーター(教育者)は,情報リテラシーやデータリテラシーへの対応である。マネージャーは図書館運営においてAIをうまく取り入れることである。最後のアストロノート(宇宙飛行士)は,図書館が知識の宝庫であることでAIを駆使した知識の創造などに関わるということを言っている。

というように,著者は,生成AIの可能性と限界を見定めた上であくまでも図書館員に寄り添ったかたちで論を展開している。とくに最後のアストロノートとしての図書館員というのは,地上で見ていたのではわからないことが宇宙空間から見ることで理解できることがあるように,知の空間のアストロノートもまた既知と既知をつなぎ,未知のものを発見し,既知と未知の橋渡しをするような役割を期待している。そのことは日本の図書館員にとってもよきメッセージになるだろう。

*なお,彼がAI技術とその哲学についての専門家で,機械学習の認識論についての専門的知見を披露している人であることは次の対談を読むとわかる。







0 件のコメント:

コメントを投稿