時評「続・ネット検索に迫っている破綻」

 最良の検索エンジンでも、インターネット上にある約8億ページのウェブを16%しかカバーしていない。7月初旬、科学誌「ネイチャー」で発表された、世界規模の研究結果を聞いて「やはりそうか」と思われる方が多いはずだ。この連載第65回「ネット検索に迫っている破綻」を発表して以来、ネット上のあちこちで、私の主張に賛意を表す方がどんどん増えている。そして、この半年ほどの間に、検索サイトの側にも新しい動きが出ている。

◆データ収集は不十分・不平等

 今回の研究結果について、いろいろな場所で日本語による紹介がされているので、それを利用する。「検索エンジンの検索結果は不平等」はこう伝えている。「ウェブ全体に対するカバー範囲の比較では、ノーザン・ライトとスナップがやはりトップで、それぞれ16%と15%、一方、最下位群はエキサイト、ライコス、ユーロシークで、それぞれ6%、3%、2%のカバー率だった」

 こんなに貧弱なのは、資金・設備の限界からデータベースを作るにあたってキーワードの一覧表を十分に大きく設定できないからであり、インターネットの膨張に追いついていないのだ。この研究グループによる98年4月の発表ではウェブは3億2000万ページ以上とされていたから、1年間で倍増の勢いになる。

 検索エンジンの不平等性という点も問題である。

 「検索エンジンはサイトのアドレスを探し出すのにふつう2つの方法を用いる。リンクをたどって新しいページを見つけるか、あるいはユーザーによる登録が多いページに行くかだ。したがって、多くのサイトからリンクされているサイトは、1回の検索で何度も何度も現れることになる」「人気のあるページはますます人気が出るが、新しくてリンクされていないページは衰退の一途をたどるということになってしまう」

 実際のところ、私の「破綻」指摘に賛成されている方から、自分が新しく作ったウェブは検索エンジンに何度登録しても、データ収集されないとの体験がいくつも報告されている。

◆私の関連サイトでの実験

 都内で創刊された外国人ビジネスマン向けのフリーペーパー「J-Watch」に、このコラムの英訳版が載るようになった。英語のページが出来たのを機会に、ここを米国の主要検索エンジンに登録してみた。2週間経って、収集されたところは「infoseek」と「AltaVista」だけである。日本語ページと同じ状況であることが面白い。日本語で登録申請してもinfoseekとAltaVistaくらいしか速やかに収集してくれない。

 一方、ロボットによる自動巡回はどうだろう。私の本拠地ウェブのサイトはロボット巡回を拒否する設定になっているため、Yahoo以外の各検索エンジンにはミラーサイトを登録している。前回に続いて、主なロボット検索エンジンによる収集状況を一覧表にしてみた。  前回、半数のコラムを収集してくれていたgooが1本にまで落ち込んでしまったままである。infoseekがベストであり、InfoNavigatorが大幅な改善、exciteもそれに次いでいる。gooとFreshEyeを除けば、いずれも2月よりは良い結果になっている点は心強い。

 私自身が使う立場でみても、このコラムを始めた頃は最も頼りとしたgooを、新しいページを探す場合にはあまり使っていない。今回の収集状況調査をする前から、infoseekとInfoNavigatorが2大ツールになっていた。改めて、使用実感との合致に驚いている。

 「検索デスク・検索力バックナンバー■1999.7.11」には、こんな厳しい分析がある。「世界のWebは8億頁とのことですが、日本語を6%とみなせば約5,000万頁になります。日本の検索サイトのカバー率は現在30%位です。検索の視点をみると米国では3年前に5,000万件処理していました。処理件数でみると日本の検索サイトは3年以上の遅れがあるとみなせます」

 検索エンジンの網に掛からないウェブがかくも膨らんでいるのなら、インターネットを使う意味を考え直さなくてはなるまい。

◆検索エンジン側の新動向

 infoseekは6月になって大幅な模様替えをした。その途端、私のウェブへのinfoseekからのアクセスが激減した。1日に100件はあったのに20件程度に落ち込んだ。「チャンネル」と称して、大規模なお勧めリンク集を前面に押し出した結果らしい。キーワード検索を使って膨大な数のウェブから、目的のページを絞り込んでいくのに疲れていた人達は、この特選リンク集に流れた訳だ。

 その後、私のところへのアクセスはゆっくりと回復していて、現在、1日に30件から40件となっている。この特選リンク集には、私のコラムも一部が入っており、そちらからのアクセスも相当数ある。双方が今後どう動くか、検索サイトの将来を考える意味でも注目している。

 大規模リンク集が見直されていると感じた、もうひとつの動き、老舗サイトのCSJが3万件をリストする「iNETガイド」を建設し始めた。

 「なぜ今 iNETガイド ?」は言う。「CSJインデックスには」「20万件以上のサイトが登録されております。一方,CSJでは既に Whats Best という超厳選のサイト集を開設し、約2000件のサイトをご紹介しております」

 「今回のiNETガイドでは 従来の20万件より少なく、Whats Bestの2000件よりは多く,その間で一番使いやすい 約3万件ほどのリンク集を目指しています」「全てのサイトを約300のテーマに分類し、それぞれのテーマ毎に約100の質の高いサイトを収録し、合計約3万サイトサイトを収録するのが当面の目標です」

 機械力による自動収集を諦めて、やはり人間が目を通して、ということだろうか。機械側からも大規模リンクに近い発想が出た。「日経サイエンス9月号」に、ある意味で問題意識が通じる「ハイパーリンクを賢く使う」IBMの新エンジンが掲載されていた。

 「ハイパーリンクのつながり具合を分析することで,このシステムは自動的に『オーソリティー』と『ハブ』という2つのタイプのページを探しだす。オーソリティー(信頼度が高いページ)はある特定のトピックスに関する良質な情報源で,ハブはそれらへのリンクの集だ」

 ただし、既存のリンク集以上のものになるか、本当に有効かに議論があろう。

 私個人は、人にあまり知られていないページも自分の鑑識眼でふるいに掛ける自信がある。また、新しいページを紹介していくのも重要な仕事と考えている。だからこそ、インターネット検索は「網羅性」を保って欲しいのだが、既に原則論では済まないところまで、膨張が進んでしまったのかもしれない。

 最初に紹介した研究の、別サイトでの紹介「Webは氷山」は、膨張のペースが弱まるのは10年か20年先だろうとし、「検索エンジンは今後ずっと,対象範囲を改善していくことができるだろう。しかし問題は,本当にそれが望まれているのかどうかだ」と、研究者の、とても意味深長な発言を載せている。