【IT】検索エンジンの仕組み

検索エンジンの種類

 [1] ディレクトリ型
 → 人間が情報収集し、その情報を階層構造にグループ分けして、DBに登録しておく
 [2] ロボット型 ★現在の主流★
 → 「ロボット」と呼ばれるプログラムが情報収集する

ロボット型の構成

 (1) ロボット   :情報を収集する
 (2) インデクサ  :収集した情報を整理してDBに登録
 (3) クエリサーバー:エンドユーザからのキーワードに対応する

ロボットの種類

 (1) スパイダー
 (2) スクローラー:検索ワードを予め探してくる

検索アルゴリズム

 NHKで検索アルゴリズムの事をやっていたのでメモ

【お題】
 * Webページから「猫の嬢王」に関するページを見つける

解決法1

 [1] 第一検索ワードで絞り込む
 [2] 第二検索ワードで絞り込む
 [3] 単語の位置に注目する(第一検索ワードと第二検索ワードが近い方が、目的に近いページである確率が高い)

弱点

 * 良く検索されるワードを散りばめられたサイト(アダルトサイトとか)が増えた場合、弱い

解決法2

 * 解決法1に加えて
 [4] 人気度に注目(他のページからリンクされている事を基準に人気度を算出する)