情報の科学と技術
Vol. 54 (2004), No.2
特集=インターネット検索エンジン
特集「インターネット検索エンジン」の編集にあたって
インターネットで情報を探す際に使う「検索エンジン」とは,主としてgoogleに代表されるロボット型の検索システムのことを指しているのが一般的だと思えます。しかし,広義には,ディレクトリ型や,前者と後者の複合型も含んでもいます。
これらの多くは,我々図書館員・資料室の情報検索者が使う図書館の目録データベース・商用データベースとは異なり,1語のみの検索語でもユーザが満足できる,良質な結果を返すように進化を続けています。つまり,インターネット上のデータを対象とする検索エンジンは「検索」といいながら,実は「いかに収集し,分析し,並べ替えるか」がその技術の中心と言えるでしょう。
では,その技術はどんな仕組みで,どんな進化をしていて,これからどう変わっていくのか。本特集では,様々な検索エンジンを使っていく上で必要な,成り立ちと仕組みの理解を目指しました。また,こうした特性を理解しながら検索を行うためのアプローチもご紹介いただきました。
日頃身近な検索エンジンをより理解して使っていく,その一助になれば幸甚です。
(会誌編集委員会特集担当委員:吉間仁子,上村順一,越智泰子,松林正己)
検索エンジンの仕組みと技術の発展
福島俊一*
*ふくしま としかず 日本電気(株)インターネットシステム研究所
〒630-0101 奈良県生駒市高山町8916-47
Tel. 0743-72-3756(原稿受領 2003.12.11)
本稿では,ウェブ検索エンジンの技術の発展を概観する。ウェブはきわめて大規模で多様な内容をもち,日々変化する鮮度の高いハイパーメディアである。このような特徴をもつウェブを魅力的な情報源として活用するための手段として,ウェブ検索エンジンは発展してきた。第一世代の技術はデータベースを利用しながらも人海戦術が基本であった。第二世代の技術はクローラによる自動収集と並列全文検索によって大規模化を推し進めた。第三世代の技術はウェブのリンク関係に着目することで高精度化を実現した。新たな技術発展として,目的特化と状況適応への取り組みが進められている。
キーワード:検索エンジン,ウェブ,クローラ,リンク解析,状況適応
検索エンジン業界勢力地図
住 太陽*
*すみ もとはる フリーランサー
〒264-0022 千葉県千葉市若葉区桜木町330-31 コーポ山崎B202
Tel. 043-233-4838(原稿受領 2003.12.19)
インターネット検索エンジン業界の勢力地図について解説する。検索エンジン市場の,検索プロバイダ,ディレクトリプロバイダ,広告プロバイダ,ポータルサイトの4者のプレーヤーの業務提携や企業買収,検索技術の開発などの話題について述べる。
キーワード:検索エンジン,ディレクトリ,ヤフー,グーグル,オーバチュア
検索エンジンの検索アルゴリズム
兼宗 進*
*かねむね すすむ (株)リコー ドキュメントソリューション推進室
〒222-8530 神奈川県横浜市港北区新横浜3-2-3
Tel. 045-477-2737(原稿受領 2003.11.28)
WWW(World Wide Web)上の文書を検索する検索エンジンは,インターネットを利用する上で不可欠な存在である。検索エンジンは従来の情報検索技術を基礎としながら,独自の発展を遂げてきた。しかし,内部の検索アルゴリズムが十分に公開されていないことから,検索エンジンは,中の見えないブラックボックスとして手探りの使い方をされることが多い。そこで本稿では,検索エンジンの検索アルゴリズムを構成する「適切なページの収集手法」「ノイズや漏れのない検索を高速に行う手法」「適切にランキングして表示する手法」について解説する。
キーワード:アルゴリズム,情報検索,検索エンジン,ランキング,スコアリング
検索エンジンのアーキテクチャ
山名早人*
*やまな はやと 早稲田大学理工学部コンピュータ・ネットワーク工学科
〒169-8555 東京都新宿区大久保3-4-1
Tel. 03-5286-3503(原稿受領 2003.11.25)
今や検索エンジンは,インターネットを利用する上でなくてはならない存在となっている。しかし,そのアーキテクチャは明らかにされていない部分が多い。本稿では,世界最大の検索エンジンであるGoogleを例にとり,検索エンジンのアーキテクチャについて,Web情報の収集,インデックス化,検索の3つに焦点をあてて紹介する。また,大量の検索クエリーをどのように処理するかや,運用にはどの程度のコストがかかるのかなどの運用に関わる問題についても取り上げる。
キーワード:検索エンジン,情報検索,Google,クローラー,インデキシング
利用者側から見たGoogleの特徴と使用方法
関 裕司*
*せき ゆうじ 四軒丁/検索の鉄人
http://www.shikencho.com/
〒410-2141 静岡県田方郡韮山町山木807-4
Tel. 055-949-5352(原稿受領 2003.11.25)
Googleというサーチエンジンのキーワードの扱い方は非常に興味深い。Googleはそのアルゴリズムを詳細に公表していないため手探りで確認するしかないが,ユーザの利便のための様々な工夫がされているようだ。
キーワードの扱い方を知った上で,より良い検索結果を出すためのキーワードの考え方を考察する。さらにGoogleの特徴的なオプション機能についても解説しよう。
キーワード:サーチエンジン,検索,グーグル,キーワード,検索オプション