[1] ディレクトリ型
→ 人間が情報収集し、その情報を階層構造にグループ分けして、DBに登録しておく
[2] ロボット型 ★現在の主流★
→ 「ロボット」と呼ばれるプログラムが情報収集する
ロボット型の構成
(1) ロボット :情報を収集する
(2) インデクサ :収集した情報を整理してDBに登録
(3) クエリサーバー:エンドユーザからのキーワードに対応する
ロボットの種類
(1) スパイダー
(2) スクローラー:検索ワードを予め探してくる
NHKで検索アルゴリズムの事をやっていたのでメモ
【お題】
* Webページから「猫の嬢王」に関するページを見つける
解決法1
[1] 第一検索ワードで絞り込む
[2] 第二検索ワードで絞り込む
[3] 単語の位置に注目する(第一検索ワードと第二検索ワードが近い方が、目的に近いページである確率が高い)
弱点
* 良く検索されるワードを散りばめられたサイト(アダルトサイトとか)が増えた場合、弱い
解決法2
* 解決法1に加えて
[4] 人気度に注目(他のページからリンクされている事を基準に人気度を算出する)