2017-08-15

日本で刊行された書籍のGoogle Books対応について

 8月2日にアマゾンに、ヴァイディアナサン『グーグル化の見えざる代償:ウェブ・知識・書籍・記憶の変容』(インプレス, 2012)という本の簡単な評を書いた。それは、次のものである。

=========================
Googleは、短期的な情報やデータをやりとりするメディアとしてはきわめてすぐれているが、米国社会が長期的に蓄積してきた出版や大学、図書館のような知識の制度を企業ベースの論理で扱うことによりそれらを破壊する可能性があるという。Googleブックス裁判のありようによっては、Googleは「知」の世界をコントロール可能であり、できて20年に満たない企業にそんな覇権をとらせることは危険だという主張である。

実際に、2016年4月の連邦最高裁の決定でGoogleの勝利が確定した。本書が今品切れになっているのは裁判途中の議論を前提にしているせいなのかもしれない。だが、その事実さえ何らかの力が働いているのではないかと思われるくらい、迫真性をもった記述になっている。

========================= 

Google Books裁判は全世界が固唾をのんで見守っていたものだが、結局、Google側の勝利で終わった。アメリカの連邦著作権法が前提とするフェアユースの考え方は、著作物の自由な流通が最終的には著作権者の権利保障につながることを前提にしている。情報流通のインフラ整備は、図書館での閲覧・貸出や複写物提供などと同様にフェアユースの範囲にあるものであり、Google Booksもまた著作者の許諾なしに複製して全文検索可能にすることは著作物の流通につながることを裁判所で認定した。

ただインフラ開発は鉄道がそうであり、鉄鋼業がそうであり、石油掘削がそうであったように、常に資本の独占という問題と関わっている。まして、情報や知識を流通させる仕組みが単一の企業によってコントロールされる状況をつくるのでよいのか、というのが本書のテーマであった。

この問題については、さまざまな角度から検討することができる。評でも触れたように、この本の原書は2011年に出ていて、その後に裁判が確定したから、本書で警告されていることは実際に起こっている可能性がある。また日本への影響は別に検討しなければならない。

ここでは、日本で刊行された書籍に対して、Google Booksがどのような影響をもっているのかについて書いておきたい。訴訟の過程で和解案が提示されたが、そのなかでは当初すべての書籍が対象だったのが、英語圏の4カ国で刊行されたものに絞られることになったために、日本で刊行された書籍はその対象になっていない。その後、この和解案は連邦地裁で棄却されたことにより、和解不成立になった。とはいえ、2011年の新和解案以降は、Googleは米国、英国、カナダ、オーストラリアで刊行されたものを対象としたビジネスモデルを選択したために、日本で刊行されたものは基本的に対象になっていない。

しかしながらそれで安心することはできない。というのは、当初は全世界の書籍を検索対象にするプロジェクトとして開始され、その時点では日本で刊行された書籍も対象になっていたからである。その当時テキスト化されて検索可能になった書籍は今でもGoogle Booksで利用可能になっている。

それを筆者が関わった書籍で見ておこう。まず、私の名前で検索すると筆者が関わった本が8冊登録されていることがわかる。
いずれも日本の出版社から出た本であり、一番古いものは1998年で新しいものは2015年である。だが、私が関わった出版物はほかにもあるから、なぜこれらのものだけが登録されているのかはわからない。

そのなかで全文が検索可能になっているものが2冊ある。「スニペット表示」という表記がある『文献世界の構造』と『情報基盤としての図書館』である。2009年までは全世界対象だったわけだから、これらのなかでは『続・情報基盤としての図書館』も全文検索の対象になっていてもよさそうなものだが、そうなっていないようだ。

このなかで 『文献世界の構造:書誌コントロール論序説』という本をみておく。この本は1998年に勁草書房から刊行された。まず次のカバー付き表紙の画像と書誌事項が表示される。白く光っているのはこの本がもともとビニールカバー付きだったことを示しているのだが、だから図書館の蔵書とは思えず、どこか別のところで撮影されたものらしい。

下のほうに、詳しい書誌事項が表示されている。
これでわかるのは、2010年6月にデジタル化され、「書籍の提供元」がカリフォルニア大学だということである。このプロジェクトに全米の主要な大学図書館が関わっていたことが公表されている。カリフォルニア大学はキャンパスが複数あるので、そのなかのどこの蔵書なのかはこれだけではわからない。

肝心の全文テキストだが、「スニペット表示」であり、一部しか見えない。見るための手がかりとしては「目次」と「多く使われている語句」がある


目次はごく一部にすぎないし、ここからリンクが貼られているわけでもなく、あまり役にたたない。多く使われている語句は出現頻度等の解析をおこなって重要度の高いものはフォントの大きさが変えられている。このなかで、「書誌コントロール」の用語をクリックしてみる。


となる。これも、この用語の使われている例の一部にすぎず、その前後の文章が表示されているというものだ。文脈付きで重要な用語が検索可能であるのは、当該の書籍がどのような内容なのかを知るのには役に立つ。だから、これらは本書のテキスト提供するためのものではなくて、あくまでも例示にすぎない。

以上のことから確認できるのは、Google Books裁判の途中の段階(おそらくは新和解案が出されてGoogle自体の方針が確定された時期)まで、米国の大学図書館の協力が得られた日本語の書籍の一部がスキャンされ、さらにテキスト変換されたということだ。私の当該書がその対象になっている。また、一連の作業によっておそらくは全文がテキスト化されたらしいこと、また、そこから索引化(キーワードの切り出し)が行われたことが分かる。

テキスト変換の精度はある程度高いとは言えるが、細かいところではミスが見られる。句読点や引用符、大文字・小文字の使い分け、小文字の読み取りなどに問題があるようだ。とくに、この本で扱っている書誌コントロール論で重要な貢献をしたJesse H. Sheraという人の名前は、本書では[シェラ」と表記しているが、この名前で検索できない。なぜかと思っていろいろとやってみると「シエラ」と表示されていた。これは単純な変換ミスであるが、日本語OCR技術はこのレベルなのだろう。

そもそも、アルファベットと数字を中心とする記号しかない言語圏のものと、漢字を使用している言語圏のものとでは読み取りの条件がまったく違う。その意味で、簡体字に切り替えた中国も、全面ハングル使用に切り替えた韓国も、日本語の複雑な文字使用環境と比べればだいぶ異なる。

それから、索引については、「多く使われている語句」を見ればわかるように、重要な用語についての切り出しは一定程度成功しているように見えるのだが、他方、文節の語尾やつなぎの言葉、日常用語などでかなり冗長な切り出しが行われていることも確かなようだ。これもワード単位で空白が入る言語とそうでない言語では条件が違っている。

もちろん、シソーラスのような語彙統制の仕組みは使われていない。 そもそもGoogle Booksのプロジェクト自体が日本の出版物には必ずしも適用しにくい面をもっているわけである。


 Googleがしているのは、図書館と協定して書籍を借り出し、これをスキャナーで画像化し、それをテキスト化ソフトにかけて全文をとりだして、索引化してデータベースに蓄積することである。Googleはネット上にある情報をすべて索引化して検索システムで提供しているのだが、これに加えて紙の書籍をデジタル化して同じようにネット上で検索することができるようにしたというのは、日本語の本についてもある程度あてはまるようなのだ。これが著作権法違反だとして訴訟になったのだが、Googleがこの作業をする際に図書館が協力していた。このことは記憶しておいてよい。

この本がこのように全文検索の対象になっていることについて、著者としてどう考えるかということであるが、なかなか複雑な心境である。すでに出てから20年近くになる本だし、本文中のキーワードで検索が可能になれば、今まで以上に読者が増える可能性があると喜んでもよいのかもしれない。しかし、このような不完全な技術のままで全文検索が可能だといわれても困る。自分が書いたものの全文が解析の対象になっているということそのものが、何となく頭の中を探られいじられている感じがするのも否定しがたい。

この本がここにあることについて、Googleに置かないように連絡したらスニペット表示をしないようにはできるだろう。著作権をもつ著者にできるのはこのように表示しないように要求すること(オプトアウトという)だけである。公開された書籍を加工して作成したこのような全文テキストとその索引ファイルについて、削除することを要求する権利はないとされている。

先ほどのインフラについての資本の独占という問題だが、これについて個人情報と結びついたビッグデータの問題点について議論が行われている。だが、それに加えて、書籍に含まれる「知」の独占的なコントロールもまたもう一つの問題だろう。書籍のテキスト化と索引化について、著作者の著作権および人格権との関係でさまざまな操作が可能になる。それらが相互にリンクされたときに、単に知の便利なツールができるのか、それとも、それが一人歩きする「世界頭脳」(H. G. ウェルズ)ができるのか。

*なお、この問題はこの秋に何度か取り上げる予定にしています。
 


 









図書館情報学と生成AI——ネット社会30年とこれから

2025年になりました。昨年、2冊の単著( 『図書館教育論』 、 『知の図書館情報学 』)を出したことでこれまでの総括を行い、次の課題を考えようとしているところです。情報技術において、生成AIが目下の最大の話題になっています。私も翻訳技術に使うAIのすごさに驚かされて、にわか勉強...