日記ブログ、または雑多なメモ
2008年2月22日

全文検索 @ OS X Panther





 携帯の赤外線通信のメモはどこだっけ? とか、kdeutilsのパッチどこだっけ? などなど、自分のメモ内を「2008年の2月、1月、2007年の12月、11月……無いなぁ」と探し回る事がたまにある。 この探す作業が結構イライラするので、一発で探し出せるように全文検索エンジンのインストールとフォームを設置した。

 全文検索と言えばNamazu、ということでまずNamazuを入れる。

Namazu
 1.文字コードの対応が悪い。 UTF-8なんかを使ってる場合は大変
 2.インデックス作成にやたらめったら時間がかかる
 3.日本語解析にmecabを使うと日本語検索語句のヒット具合がおかしい(ヒットしないことが多い)
 4.解析にchasenを使うとよい感じ(普通)に動く
 5.検索結果の表示が決め打ちで行頭から表示される(検索語句がはるか後方にある場合、結果表示に含まれない)

 こんな感じ。 3は構築を失敗しただけかも? とりあえず、5だけが我慢できない。 レスポンス重視のためのようだが、昔のコンピュータを前提に作られているから仕方の無いところか。 今となっては検索エンジンとしては使いにくいことこの上なし。 ということでもう一つの候補、Hyper Estraierを入れてみた。

Hyper Estraier
 1.インデックス作成が速い
 2.結果表示スッキリ、検索語句近辺が表示されてわかりやすい
 3.文字コード対応も柔軟でUTF-8でも問題無し
 4.cgiがgetメソッド使用なのがちょっと気になる

 という感じで、ハイ採用。

 ちなみに実際に検索されているのは我が家の自家サーバの中身で、結果をリモートのhi-hoサーバのアドレスに変換して表示、という形になっている。


コメント欄
(投稿なし)

コメントなどありましたらこちらからどうぞ
名前
内容
 ※名前、内容ともに入力必須です
- C'sGallery Blogっぽく見えるシステム3.2 -
小武 (管理人) eta2@tim.hi-ho.ne.jp