第6回「文書の電子化から電子図書館へ」

 第4回の紙資源の話から引き継いで、文書を電子化すると木をどれくらい節約できるものか、検証してみよう。割り箸を紙資源として再利用する運動があり、コピー用のA4上質紙1枚作るには割り箸は3組要るという。この連載とほぼ同じボリュームの新聞用企画を'96年春、インターネットを素材に取材したことがある。その際は、参照したホームページのうちから選んで200枚ほどの紙に印刷した。それに比べて、この連載はこれで6回目になるが、執筆するためには10センチ四方のメモ用紙しか、紙は使っていない。5回で割り箸3,000組分は節約したことになる。

◆電子化してみれば

 インターネット用の記録・整理ソフトウエアが開発されて、手に入った点が効いている。閲覧ソフトで見たホームページをそのままをハードディスクに残しておける。メモを付けて項目別に分類できるから、'96年のように大量の紙をめくって目当てのページを探すより、早く見つけ出せる。ニフティサーブで引いたJOISなどのデータベースの情報もワープロソフト上にコピーしておく。さまざまなソフトがひしめいているノートパソコン画面はちょっと狭苦しいが、なんとかペーパーレスで書いて、電子メールで編集部に渡している。

 私的な文書や会社の文書の電子化も可能だ。FAXなどで文書を送って光学的に文字を読む「日本語OCR読み込み」といったサービスや、オリジナルの書式を残しての「ファイル化システム」など、インターネット上でもいろいろと提供が始まっている。お金さえ掛ければ、山のように積まれた資料類を電子化してもらえ、自分の取材資料で、あの話がどこかにあったのに見つからないといった苦労から解放されるかもしれない。それには電子化以外に必要なものがある。

 電子化された大量ファイルのどこに必要なものがあるか、検索してくれるシステムである。大量とはいえパソコン内部に納まる程度なら問題ないが、たとえば現在、ニフティサーブで提供されている新聞記事データベースの検索システムは不完全なものだと言ったら不思議に思われるだろうか。キーワード検索でちゃんと探せると見えて、私の署名記事を全部引き出してくることは出来ない。非常に少ない姓なので、キーワード一覧表を作って抜けるはずがないのだが、キーワードの数を記事先頭から何百個までと打ち切っているので、長い記事の最後に署名がある場合はキーワード一覧表から抜け落ちてしまう。この事実を知るまで私も良くできていると思い込んでいた。目当ての記事が出てくれば文句はないが、もしも無かったとしても「不存在」の証明にはならない。

◆超高速!全文検索の登場

 どんな言葉が入っていても必ず見つけ出せる。敢えて文法から外れた駄洒落でもかまわない。キーワード一覧表を作るのとは別の発想による、全文検索システムがいくつも登場してきている。たとえば、松下電器産業のPanaSearchや日本IBMのInfoSearch、日本DECのWebixなどだ。

 パソコンで普通のソフトを使って必要なたびに全文「検索」指示を出すと、かなり時間がかかるが、このシステムのある例は新聞4年分を1秒で調べ尽くす(PanaSearch)。今年3月下旬には、なんとこの40倍の速さの「120億文字/秒の高速全文検索」システムが発表されている。

 以前からよく知っているPanaSearchについて動作原理を説明すると、意味のあるキーワードに代えて、2個の文字の組み合わせ一覧表を作る。「今後ともよろしく」という文句が入っているファイルがあれば、「今後」「後と」「とも」「もよ」「よろ」「ろし」「しく」の組み合わせすべてで該当になる。なんだか大変そうだが、キーワードのように言葉の「切れ目」や「読み方」に気を使う必要がないので、電子化した文書を機械に渡しておけば夜なべでもなんでもして、一覧表は自動的に生成されるのがミソだ。検索の指示が来たら、文字の並びがすべて該当のファイルを抽出し、さっと答えてくれる。

 良いことづくめのようだが、問題はその2文字一覧表の大きさである。比較的小さなPanaSearch初期のシステムでも、文書ファイル本体の30%くらいの大きさを占領していた。文書ファイルが膨大になれば50%、いやそれ以上にも膨れ上がると容易に想像できる。

 現に、動作原理は違うかもしれないが、Webixの説明を読んでいくと「検索対象ファイルサイズの約50〜120%のディスク容量が必要になります」とある。検索すべき文書ファイルのサイズ以上の大きさまで必要になるということか。これは次に取り上げる電子図書館での検索には致命的なことかもしれない。

◆電子図書館の夢

 インターネットを始めたとき「バーチャルライブラリー」がどの程度実現できているのか、いろいろと試してみた。結果はもちろん夢想したほどには進んでいなかったが、現在進行形で試みはある。手近な場所として、国立国会図書館のパイロット電子図書館プロジェクト。また「国立国会図書館関西館」を建設する計画のために新世代通信網実験協議会が「電子図書館に関する研究」を進め、文書検索の問題よりむしろマルチメディア指向で、絵画や古文書、ビデオ、音声を遠隔地で利用できる点にスポットが当たっている感じだ。

 しかし、日本雑誌協会による国内の書籍・雑誌の出版点数の推移を見ていただこう。書籍だけに限っても'60年代までの年間1万点台が、'70年代は2万点台、'80年代は3万点台に伸び、'90年代に入ると4万点台、そして'95年には51,106点に達する。この他に新聞や雑誌もある。年々蓄積される、これだけのマスをすべて収蔵する図書館がそうそう可能なはずはない。文化蓄積の核である膨大な文字データを可能な限りたくさんの人々に開放するのが、電子図書館の夢ではないかと思う。もちろん、著作権問題を解決した上での話であり、加えてマルチメディア仕様であれば言うことはない。

 谷口敏夫・光華女子大文学部助教授が「電子図書館とは」で、基本的な考え方や世界の動きを紹介してくれている。さらに「高次情報検索とGUI 電子図書館を支える要素技術」で、将来の高次情報検索についてイメージの一端を描く。

 ところで、「検索」があるから、電子化文書は扱いにくいと感じる人が多い。しかし、我々がこの連載を含めて使っているハイパーテキストでは、検索を意識させない、かなり自由な感覚がある。マウスをクリックするだけで、次から次へと必要な情報を追って文書を乗り移れる。この形式が生まれる前に、電子新聞の可能性を検討する研究が、京都大であった。

 その結論は「情報の一覧性の点で及ぶものではない」だった。新聞のページを繰るだけで読み手に必要な情報が拾い出せ、30分くらいで読み終えてしまうのには歯が立たないのだ。「経済面の新商品情報と家庭面の消費者情報、スポーツ面のスキー関連もの、それに社会面下の音楽広告だけ」。こんな読者が本当にいるかどうかは知らないが、その日の気分に合わせてカスタマイズして新聞を読めてしまうのは事実だ。作り手側はその邪魔をしないよう、スタイルの変更を極力避ける。

 電子新聞がテキストの羅列やFAXでの送信しか考えられなかった当時は、かなわなかった。ハイパーテキスト形式も、今のままで新聞の一覧性と勝負になるとは思わないが、ひとひねりすればと私は思っている。その「ひとひねり」は、今度は国内から生まれて欲しいものだ。