第9回 検索上手になる何か調べたいことがある時には、GoogleやYahooなどで検索してみるのが常になりました。 世界のWebサイト数は2007年秋に1億を超えたと言われ、インターネットは情報の宝庫から情報の海原と呼ばれるようになりました。その中から目的の情報を探し出すための強力な道具が、検索エンジンです。今回は、インターネットの検索エンジンについて解説します。 【今回登場するキーワード】
検索エンジンは、1994年4月に米スタンフォード大学の学生だったデビッド・ファイロとジェリー・ヤンが作った「Yahoo! Internet navigational guide」(後のYahoo!)が最初です。その後1995年末に「AltaVista」をDEC(現在はヒューレット・パッカードに統合)が公開。1998年9月には、ラリー・ペイジとサーゲイ・ブリンの2人によってGoogleが共同設立されました。MSN(Microsoft Network)サーチのベータ版は2004年に登場しています。 検索エンジンの種類としくみGoogleやYahoo、MSNサーチなど検索を専門にするWebサイトを検索サイトと言います。インターネットで検索上手になるためには、まず検索サイトの検索の仕組みを理解することから始めましょう。ここで実際に検索を行うプログラムが検索エンジンです。この検索エンジンは、私たちが入力したキーワードを基に数十億ページの中から該当するページ候補を見つけてくれるのです。 1.検索エンジンの種類検索エンジンは「ディレクトリ型」、「ロボット型」「ハイブリッド型」に大別することができます。 ロボット型クローラと呼ばれるロボット(実体はプログラム)がWebサイトを巡回し、Webページの情報を収集し、あらかじめ検索用の索引ファイルを作成する仕組みです。索引化するための情報収集が自動化されているために大量の情報を集めることができますので、情報量が圧倒的に大きい利点があります。Googleは80億ページ、Yahoo!は190億ページを索引化していると言われています。情報が多いために、検索にあたってはキーワードを工夫しないと、目的の情報にたどりつけない場合があります。
ディレクトリ型Webサイトの所有者などからの要請に基づいて、検索サイトの運営者の手によって、ジャンル別に検索サイトに登録され、ユーザーは登録された中から検索する仕組みです。Webページの登録にあたって、ある程度選別されるため、検索されることだけを目的とするWebページやスパムなどいわゆる検索ノイズが取り除かれて目的のページを見つけやすい、企業名や地域名などで検索することで関連情報も同時に入手できるなどの利点があります。ロボット検索と比較すると、情報量では劣りますが、検索結果の質の点で優れています。検索するページのタイトルやジャンルが明確な場合には、キーワードと関連性が高いWebページが見つかりやすい特長があります。ディレクトリ型の代表がYahooカテゴリです。 ハイブリッド型ディレクトリ型とロボット型を併用した検索エンジンのことです。 2.検索エンジンの仕組み今日の検索エンジンは膨大なWebページを一つひとつ開いて直接検索するわけではありません。あらかじめWebサイトを巡回し、Webページの情報を収集し、次にその情報から索引ファイルを作ります。検索はこの索引ファイルに対して実行します。さらに、実行結果を並べ替えたり削除したりする操作を行って検索結果として表示します。 上記は基本的な検索エンジンの仕組みです。この仕組みで検索した結果をそのまま表示してもユーザーの望む結果になるとは限りません。例えば、検索されることだけを目的としたWebサイトやキーワードを羅列した意味のないサイトや、時には有害なサイトもあります。ユーザーが本当に望む検索結果を表示することが、各検索エンジンの技術とノウハウの蓄積です。その結果、Webページの収集から結果の表示に至るまで、それぞれが複雑なアルゴリズムや膨大なプログラムで処理されています。 Webページの収集ロボットがWebサイトを巡回し、Webページ内の情報から、検索される語句など索引情報を作るのに必要な情報を収集します。この作業はクローラ(Crawler)とかスパイダー(Spider)とよばれるロボット(実際はプログラム)が行っています。ロボットはWebページ内のHTMLファイルを読んで次々にリンクをたどっていくのです。 索引化Webサイトで収集されたページの情報を基に、索引ファイルを作ります。この索引ファイルに記録された文字列に対して検索を行います。 検索実行作成された索引ファイルに対して、入力されたキーワードと索引化された文字列を比較します。比較する方法には、表の先頭から順に比較する線型探索や、ソートされた表を半分ずつ比較する2分探索などがあります。前者はどんな表でも探索できる反面で検索に要する時間が長くなります。後者は高速ですが、索引がソートされていないと探索できません。 フィルタ検索した結果をそのまま表示すると、キーワードを羅列しただけの無意味なWebサイトが上位に表示される可能性があります。そこで、検索エンジンは独自の順位付けで作為的に表示を変更します。検索結果から、アダルト関連や検索されることだけを目的にしたWebサイト、スパムなどは削除されたうえで、表示順を決めるためにランク付けをします。更新日付順や文書中のキーワードの出現頻度の順、HTMLの見出しタグ(<title>タグや<h1>タグなど)の比較、出現頻度や出現する文書数による単語重要度評価によって検索結果の表示順位が決まります。 検索エンジンの使い方検索エンジンの使い方は難しくはありません。しかし、仕事中の調べものや分からないことを調べるときに、なかなか目的の結果を得られなくて困った経験は誰しもあるはずです。そうしたときに、ほんの少し検索エンジンの機能を知っているだけで、解決できることがあります。ここで、検索エンジンの持つ基本的な機能とその使い方を説明しておきましょう。 1.検索エンジンの機能を知るまず、基本的な検索方法を説明します。
こうしたきめ細かな検索方法は、検索オプションで画面表示を見ながら設定することもできます。 Yahoo! にも同様の設定画面があります。 検索結果が多すぎて絞り込めない時にはこの画面で設定を変更してみてはいかがでしょうか。 2.キーワードを考える検索は、「これがベスト」とされる確立されたキーワードの選択手法はありません。しかし、検索の方法を工夫することで効率を上げることはできます。例えば、複数のキーワードで検索するときには、AND検索だけでなく、NOT検索やフレーズ検索を利用することです。NOTは除外するキーワードとして例えば「-トラックバック」とすると表示結果からブログのほとんどを取り除くことができます。また「-pdf」とすれば、検索結果からPDFを除外することができます。フレーズ検索では、「インターネット講座」のように、膨大な検索結果が予想される「インターネット」というキーワードが含まれている場合に、全体を一語で検索するだけで、検索結果は大幅に絞り込まれます。 3.特殊な検索Googleを例に、いくつかの特殊な検索方法を紹介します。
Adobe Acrobat PDF (.pdf)
Adobe Postscript (.ps) Microsoft Word (.doc) Microsoft Excel (.xls) Microsoft PowerPoint (.ppt) Rich Text Format (.rtf) さらに、Googleでは特殊な検索を指定するためのキーワードが用意されています。次の表に示します。
4.消えたWebページの検索消えていったWebページを検索することもできます。これには2つの方法あります。1つ目は、Googleの検索結果に表示されるキャッシュです。既に削除されたり閉鎖されたりしたWebページもGoogleのロボットが巡回し収集した結果が残っているのです。それがキャッシュです。Webページを開くとキーワードがハイライトされた状態で表示されます。2つ目は、過去に公開されていたWebページを記録として保存しているWebサイト、「インターネットアーカイブ」です。米国の非営利組織インターネットアーカイブが運営するサイトが有名です(URL http://www.archive.org/)。1996年以降の数百億ページを保存しており、米国議会図書館やスミソニアン博物館も協力したと言われています。いつの間にか消えてしまったWebページやサイトが保存されている可能性があり、過去に遡ってWebページを探したい場合に便利です。 5.ジャンル別に検索特定のジャンルに強い検索エンジンや最新のニュースから検索できるなどの特徴を持つ検索サイトがあります。GoogleやYahoo! もオプションとして同様の機能を持っています。その中からいくつか紹介しておきましょう。
検索されるには今度は検索される側から検索について考えてみましょう。 1.検索されやすいサイト調べものをするために検索してみたら、表示結果はブログばかりと言う経験はないでしょうか。ブログは構造的に検索されやすい特徴があります。ブログではほとんどの場合、HTMLタグを自分で入力することがなく、ブログのシステムまかせになります。これが、W3C(注1)の仕様に沿った標準的なHTML構造となることが多いために、検索エンジンのロボットには分かりやすいのです。また、トラックバックなど手軽に相互リンクが可能で、このことが他からリンクされていることを重視するロボットに評価されます。Googleのページランク(注2)は、これを数値化したものです。通常のWebサイトに当てはめると、W3C仕様に準拠した標準的なHTML構造にすること、他のサイトからリンクを張ってもらうこと、コンテンツを充実させ、ユニークなキーワードを設定しておくことが、ブログ並に検索されやすいサイトへの王道と言えます。
注1 W3C(The World wide web Consortium): Webの標準化団体。HTML、XMLなどの規格をとりまとめている。 2.SEOとSEMWebサイトに1人でも多くの訪問者を迎えるためには、検索エンジンによる検索結果の表示順はとても重要です。そこで、検索エンジンのロボットに分かりやすいサイト作りを目指すことになります。その検索されやすいサイト作りの技法が、SEO(Search Engine Optimization:検索エンジン最適化)です。検索エンジンのロボットによる巡回では、Webページ内部でキーワードがどう扱われているかを判断して索引化します。例えば、見出しとして扱われているか、強調表示されているか、出現頻度の高低はどうか、それによってそのキーワードがページにとって重要かどうかなどを判断します。ですから、こうした検索エンジンの情報収集の特徴に合わせてコンテンツを作れば表示順が上がります。また、Googleが独自に採用するページランクを上げるために他のサイトからリンクを張るといったことも行います。 3.検索エンジンの問題点検索エンジンの影響力は大きく、検索結果で上位に表示されることで例えば、ネット通販サイトの業績向上に結びつく可能性も小さくありません。そのため、SEOやSEMビジネスは隆盛を極めています。SEO、SEMをキーワードに検索すると200万件以上という膨大な結果になります。個人のサイドビジネスからコンサルタント、企業にいたるまでSEOやSEMのノウハウを扱っています。 4.検索されないようにする逆に検索してほしくない場合もあります。例えば、グループ仲間などで運営するクローズドなWebサイトや特定の人向けにサービスを行うサイト、または作成途中のサイトなどでは、検索サイトにより無関係な人が来ることは望んでいません。こうした場合には、Webサーバのトップページと同じディレクトリに、robot.txtというテキストファイルを配置するのが一般的です。検索エンジンのロボットは、robot.txtを発見すると、ページ情報の収集を行いません。内容は次の例のような簡単なものです。
robot.txtはすべてのロボットに対して有効と言うことではありません。中には紳士的でないロボットがいるかもしれません。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
これもrobot.txtと同じで完全に検索対象外になると言うことはありません。なお、robot.txt、メタタグの利用ともに、セキュリティ対策になるものではありません。セキュリティ対策は別の方法で行っておく必要があります。 これからの検索サイトキーワードによる検索ではなく、日常使用する文章で検索する方法の開発が進められています。自然言語検索という方法で、例えば、ファミリ会に入会するための手続きを知りたい時に、「ファミリ会」、「入会」、「手続き」とキーワードを連ねるのではなく、「どうすればファミリ会に入会できますか」といった質問を入力すると、答えになるWebページが表示される仕組みです。Googleキラーと呼ばれる米国Powersetや英国TrueKnowledgeが有名で、まだ開発段階と言ったところで、これからの技術として注目されています。 おさらい
次回はブラウザとWebアプリケーションのお話しです。 参考リンク |
All Rights Reserved, Copyright(C) FUJITSUファミリ会 |