検索エンジン

出典: フリー百科事典『ウィキペディア(Wikipedia)』

検索エンジン(けんさく-、search engine)とは、狭義にはインターネットに存在する情報(ウェブページウェブサイト画像ファイル、ネットニュースなど)を検索する機能を提供するサーバーやシステムの総称である。インターネットの普及初期には、検索エンジンとしての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索エンジンをサービスの一つとして提供するウェブサイトを単に検索エンジンと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。

狭義の検索エンジンは、ロボット型検索エンジンディレクトリ型検索エンジンメタ検索エンジンなどに分類される。 広義の検索エンジンとしては、テキスト情報の全文検索機能を備えたソフトウェア全文検索システム)等がある。 また、検索エンジンは、全文検索が可能なものと不可能なものがある。

目次

[編集] 検索エンジン(狭義)

[編集] ロボット型検索エンジン

与えられた検索式に従って、ウェブページ等を検索するサーバー、システムのこと。検索式は、最も単純な場合はキーワードとなる文字列のみであるが、複数のキーワードにANDOR等の論理条件を組み合わせて指定することができるものが多い。

ロボット型検索エンジンの大きな特徴の一つとして、クローラ(スパイダー)を用いることが挙げられる。このことにより、WWW上にある多数の情報を効率よく収集(日本の著作権法では複製)することができる。大規模な検索エンジンでは、80億ページ以上のページから検索が可能になっている。

収集したページの情報は、前もって解析し、索引情報(インデックス)を作成する(日本の著作権法では編集)。日本語などの言語では、自然言語処理機能が生成される索引の質に影響する。このため、多言語対応した検索エンジンの方が精度の高い検索が可能となる。

検索結果の表示順は、検索エンジンの質が最も問われる部分である。ユーザーが期待したページを検索結果の上位に表示することができなければ、ユーザーが離れてしまうからである。そのため、多くの検索エンジンが、表示順を決定するアルゴリズムを非公開にし、その性能を競っている。また、検索エンジン最適化業者の存在も、アルゴリズムを公開しない要因になっている。Googleは、そのアルゴリズムの一部であるPageRankを公開しているが、やはり、多くの部分が非公開になっている。なお、Googleの場合、創設初期におけるアルゴリズムについては、創設者自身がウェブ上で公表している論文でその一端を知ることができる。 参照 英語原文[1]日本語の解説[2]

ウェブページの更新時刻の情報を用いて、新しい情報に限定して検索できるものや、検索結果をカテゴリ化して表示するものなど、特長のある機能を搭載したり、検索結果をユーザーへ最適化していく動きもある。Mooterは、品詞をクラスター化して検索結果をテーマや内容に応じて分類・整理する仕組みだ。また、検索結果と同じ題名の書籍がある場合、オンライン書店へのリンクを表示するなど、商業的な機能もある。

また、従来のウェブページを検索するだけの検索エンジンにとどまらず、最近ではインターネットショッピング専用の検索エンジンの開発も散見される。価格比較サービス最大手の価格.comや、ベンチャー企業が開発するQOOPIEなどある。

Google, Yahoo!, infoseek, Technorati,MARSFLAG, Altavista, AlltheWeb, Teoma, WiseNut, Inktomi,SAGOOLなど。

[編集] ディレクトリ型検索エンジン

人手で構築したウェブディレクトリ内を検索するサーバー、システムのこと。

人手で構築しているため、質の高いウェブサイトを検索可能。また、サイトの概要を人手で記入しているため、検索結果の一覧から目的のサイトを探しやすいという特長がある。

しかし、検索対象となるサイトは人手で入力するため、検索対象となるサイト数が多くないという欠点がある。

WWWの爆発的な拡大によって、あらゆるウェブサイトを即時にディレクトリに反映させることが事実上不可能になり、現在では主流ではなくなっている。 このため、ディレクトリ型検索エンジンでは、検索にヒットするサイトが無かった場合、ロボット型検索エンジンを用いて結果を表示するような、併用型のものが多い。

Yahoo!, Lycos, Open Directory Project, LookSmartなど。

[編集] メタ検索エンジン

ひとつの検索ワードを複数の検索エンジンで検索することをメタ検索という(横断検索エンジンと呼ぶこともある)。 詳細は「メタ検索エンジン」を参照のこと。


[編集] 検索エンジン(広義)

[編集] 全文検索システム

与えられた文書群から、検索式(キーワードなど)による全文検索機能を提供するソフトウェア、システムの総称で、ウェブサーバに組み込んで利用されることが多い。スタンドアローン環境で用いられる個人用途のものもあり、そういったものは特に「デスクトップ検索」と呼ばれている。

詳細については、全文検索の項を参照。

[編集] 歴史

[編集] 黎明期

日本のインターネット普及初期から存在した検索エンジンには以下のようなものがある。黎明期には、豊橋技術科学大学の学生が作成したYahhoや、東京大学の学生が作成したODiN、早稲田大学の学生が作成した千里眼など、個人の学生が作成したものが商用に対して先行していた(いずれも1995年に作成)。これらは、単に実験用に公開されていただけでなく、多くの人に用いられていたものであって、黎明期のユーザにとっては、知名度、実用度ともに高いものであった。またMondouなどのように研究室(京都大学)で作成したものもあった。

[編集] ロボット型

  • ODiN (サービス終了)
  • 千里眼 (サービス終了)
  • OCN Navi (TITAN) (サービス終了)
  • Mondou(サービス終了)

[編集] ディレクトリ型

  • Yahoo!
  • NTT DIRECTORY (サービス終了)
  • CSJ INDEX (サービス終了)

[編集] Yahoo!の独走

日本では、1996年にサービスを始めたYahoo!が簡素な画面構成と質の高いディレクトリで人気を集め、検索サイト首位の座を固めた。そして、検索サイトの集客力を武器にニュース、オークションなどのサービスでポータルサイトとしての独走を始めた。

[編集] 群雄割拠

1997年頃から、WWWの爆発的な拡大に伴って、ディレクトリ型のみであったYahoo!のウェブディレクトリの陳腐化が急速に進んだ。この頃、infoseekgooに代表されるロボット型検索エンジンが人気を集め始め、Yahoo! JAPANはロボット型検索エンジンにgooを採用するなど、群雄割拠の時代になった。

[編集] Googleの台頭

1998年に登場したGoogleは、従来の検索エンジンがポータルサイト化へ進む流れに逆行し、独創的な検索技術に特化しバナー広告等を排除した簡素な画面と2000年にYahoo!のロボット型検索エンジンに採用されたことにより、急速に人気を集めた。2004年現在では、ウェブページ検索の世界シェアのトップに躍り出たと見られている。英語圏ではあるフレーズ(たとえば「ウィキペディア」)をGoogleで検索することを“google Wikipedia”のように表現する(日本語においては「ウィキペディアをググる、ウィキペディアでググる」)ほどになった。この状況に危機感を募らせたYahoo!は、2004年にロボット型検索エンジンを独自技術Yahoo!Search Technology(YST)(Yahoo!が買収したInktomiとAltaVistaOverture等の技術を統合した)に切り替えた。同年、GoogleやYahoo!のエンジンに匹敵すると言われるTeomaを利用した検索エンジン、Ask Jeeves(現・Ask.com)が「Ask.jp」として、2005年、オーストラリアで誕生したMooterが日本に進出し、検索サービスを開始した。

[編集] 検索エンジンの多様化

検索という行為が一般化するにつれて、各種目的別に多様化した検索エンジンが現れるようになった。品詞クラスターさせて検索するMooter、ブログの情報に特化した検索TechnoratiやblogWatcher、商品情報の検索に特化した商品検索サイト、サイトの見た目で検索するMARSFLAGほか、次々と新しい検索エンジンが生まれている。 また、検索エンジンでは判断できない抽象的な条件などでの検索を人手に求めた、OKWave人力検索はてななどの「人力検索」と呼ばれるサービスも登場した。 また最近では、携帯電話からもサイトを検索する傾向となり、Googleやyahoo!をはじめとする携帯向けのモバイル検索サイトが登場し活気がでている。

[編集] 対応端末の多様化

ソフトバンク・Yahoo! JAPANがボーダフォンを買収し、KDDIがGoogleと提携するなど、携帯電話の分野で検索エンジンの戦いが激化してきている。モバイル検索の分野は長らく公式サイトと呼ばれる世界がユーザーの囲い込みを行っていたため脚光を浴びることが少なかった。

また、近年携帯型・据置型問わず家庭用ゲーム機にインターネット接続機能が搭載されるようになり、こういった世界でも検索エンジンの戦いがまもなく起こるのではないかとの見方もある。

[編集] テレビコマーシャルとの連動

2006年頃から日本では検索キーワードを表示するテレビコマーシャルが急増している。大抵はキーワードが書かれた状態の検索フォームとボタンを表示し、マウスクリックを促す演出がなされている。コマーシャルでURLを表示するのに比べてアクセス数を獲得しやすいことが増加の要因である。しかし検索結果に企業にとって不都合な情報が現れる場合があるため、グーグル八分のような検索結果の操作が行われるケースも考えられる。

[編集] 課題

いわゆる「使用言語からみたインターネット人口の割合」はInternet Archiveを用いてEuro MarketingGlobal Reachから過去の月次資料を整理すると以下のような推移を辿っている。


1998年 1999年 2000年 2001年 2002年 2003年 2004年

12月 1月 4 - 7月 12月 2月 4 - 6月 7月 1月 6 - 10月 2 - 4月 7月
英語 58% 55% 51.3% 49.6% 47.6% 47.5% 45.0% 43.0% 40.2% 36.5% 35.8%
非英語 42% 45% 48.7% 50.4% 52.4% 52.5% 55% 57.0% 59.8% 63.5% 64.2%

1995年以前のInternet Societyによればインターネットで用いられている言語のうち英語が占める割合は85%とされていたが、その後のITの進歩や各国のインターネットの普及により多言語化が進み、上表に見られるように2000年の年末には英語と非英語の言語人口が逆転し、その傾向は継続している。

2005年2月2日現在、WWW検索エンジンの代表格であるGoogleでは80億を越す8,058,044,651ウェブページが登録されている。検索エンジンの利用者はそれら40億を越すウェブページから求める情報を容易に引き出せると思い込みがちであるが、例えば日本語入力のできないコンピュータなどの端末を用いて日本語サイトを検索することは容易ではない。同様に非英語圏の言語間の検索は中間に翻訳エンジンを介さないと検索作業は難しい。

インターネットの多言語化が今後も増加すると仮定した場合、言語間の壁をどのように乗り越えるかは今後の検索エンジンが抱える課題の一つとして挙げることができる。

[編集] 深層ウェブ

また、Googleなどのウェブ検索エンジンでは、データベースの検索結果など多くの動的ページが検索対象になっていない。このような動的ページは「深層ウェブ」「見えないウェブ」「隠されたウェブ」などと呼ばれている。静的ページの500倍の量が存在し、多くは無料だといわれる。深層ウェブは、一般の検索エンジンなどからデータベースなどを見つけ出すか、直接アクセスした上で、それぞれの検索機能から再度検索しなければならない。

このようにWebページが深層と表層に分かれてしまう背景には検索エンジン側が晒されるリーガルリスクがある。たとえばデータベースと連動する動的ページをクローラーが集中的にクロールすると、データベース側の負荷が上がるためサーバ速度の低下やシステムダウンを引き起こす危険が高まる。このようなことから検索エンジンは技術的に深層に入り込めない訳ではなく、あえて避けていると推測することができる。実際、中国の検索エンジン百度は集中的なクロール活動を続けた結果、多くのサーバ管理者から一斉にクレームを受け、クロール活動を大きく制限せざるを得なかった。

[編集] 社会的な問題

出典の明記:この記事や節の内容に関する文献や情報源を探しています。ご存じの方はご提示ください。出典を明記するためにご協力をお願いします。

膨大なインターネット上の情報を網羅的に調査するには大手の検索エンジンを利用するほか方法が無い。このためURLがあまり知られていない無名なウェブサイトやドキュメントなどに関しては検索エンジンに検索結果として表示されなければ、その情報にたどりつく可能性が著しく少なくなってしまう。表示されなくなる基準は露骨な検索エンジン最適化テクニックを使用しているサイトや各国の法律等に反しているサイト(下記中国の例)、公序良俗に悖るサイト(アダルトサイト等)と考えられているが、その明確な基準は各社共に不明瞭であり、検索結果から削除される際の該当ウェブサイトへの警告は基本的にない。

日本では実際に上場企業のウェブサイトがスパムと判断され検索結果に掲載されなくなるということがある。しかしながら、検索サイトでトップに表示されることは企業や商用サイトにとって莫大な利益を還元することであり、基準を公開することで発生するであろう不正行為との兼ね合いはなかなか難しい。

検索エンジンを利用したストーカー行為の事例も発生するようになってきた。個人の氏名で検索すると非常に詳細な個人情報が取得できるケースもあるが、個人情報の削除要請に対し検索エンジン各社は、元のページの作成者に一切の責任があるとして、応じない方針を取っている。また、Yahoo!では削除要請を依頼するための連絡先すら掲示せず利用者からの依頼を無視することでこの問題に対処する方針をとっている。検索エンジンの利用のうち30%程度が個人情報に関連する検索で占められている見られており、プライバシー問題は検索エンジン各社にとって触れられたくない問題であるのは事実である。

SNSなどの代表されるサイトMixiでは本名での登録を促しているが、これは名前さえわかればSNSサイトの検索機能で容易に個人を特定可能であり、自らに関連するカテゴリへの参加(喩えば卒業校)や公開された参加者間の会話などで、容易に個人の情報を推測・取得できる。

また中国の検索エンジンでは反政府的な内容や政府が弾圧しているといわれる宗教団体に関する情報は検索結果に表示されなくなっている。Googleなどは検索結果の中に「表示されている内容は一部法律に基づいて省略されている」という記述があるが、結果的に中国政府の言論弾圧に手を貸しているという批判がある。同様の批判はYahoo!やMSNにも向けられている。

[編集] そのほか

[編集] 日本の現状

[編集] 著作権との関係

検索エンジンは、その仕様上インターネット上のコンテンツを複製してキャッシュとして保存するようになっている。このような仕様は、日本では、著作権法上、問題があるため、検索エンジンの仕様を合法とする海外(米国など)のサーバに置かれている。

しかし、これでは日本人が検索している内容が米国に筒抜けとなってしまい、国益上好ましくないと考えられる。そのため遅ればせながら、経済産業省が日本国内でも検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表した。<ref>著作権法改正へ--検索事業者のデータ利用、著作権の許諾なしでも可能に - CNET Japan</ref>

[編集] 各種広告

2004年頃から、各種広告で目的のアクセス先URL(アドレス)を記す代わりに、社名や商品名などを検索エンジンで検索させるように仕向ける広告が多くなっている。このような変化が生じた理由は不明であるが、各メディアの広告掲載基準の変更などが考えられる。

[編集] 主な検索エンジンサイト


[編集] 関連項目

[編集] 外部リンク

[編集] 脚注

<references />

ことばこって?

「ことばこ」は、歴史の人物から最先端テクノロジーまで、なんでも調べられるオンライン百科事典です。ウィキペディア財団が運営を行なっているwikipedia.orgから引用をしています。

おススメサイト
トラブログ
アレどう?
アフィリエイトB