namazuをセットアップ

・nkf
・KAKASI
・chasen
・mecab
・xpdf
をとりあえずインストールする.
これらは,portでインストールする.
次にnamazuをソースコードからインストールする.
http://www.namazu.org/

./configure
make
sudo make install

さらに,namazuで日本語のインデックスを作成するため,環境変数LANGを変更する.
固定するには,shellの環境変数を変更する.
私は,bashを使っており,めんどくさいので/etc/profileに以下を追加した.

export LANG=jp

次に,mknmzの設定ファイルを見る.
説明サイトではデフォルトでいけるみたいなことを書いたけど,とりあえず設定ファイルを書き換えてみた.
nkfと,Chasenと,WAKATIのところだけ,コメントアウトを消して,修正した.
そうするとうまくいった.

番外〜pdfを検索する

pdfは,xpdfというツール使ってインデックスを作ることになる.
しかし,そのままでは,xpdfが日本語を処理できないため,languageパックをインストールする.
おそらく,そのままの場合,下のようなエラーが出るはず.

Unable to convert pdf file (maybe copying protection)

xpdf-japanese.tar.gzをインストールする.
/usr/local/share/xpdf/japanese
に中身を全部コピーする.
そして,さらに
/usr/local/etc/xpdfrcにadd-to-xpdfrcの中身を追加する.
しかし,port等を使ってインストールした場合は,パスが異なるので,それを変えてadd-to-xpdfrcの中身を追加する.
確認は,pdftotextを使って日本語のpdfファイルを読み取ってみる.
pdftotextでエラーが出ている場合は,ここまでの設定がおかしいということになる.

しばらくするとまたおかしくなった.

Perlのエラーが出ていたので,環境変数を整理した.
その後,インデックスを再構築すると,まったく検索できない状態となった.
中を見てみると,どうやら,分かち書きが全然できていない様子.
・・・.どういうこっちゃ.
色々,設定を試みた結果.LANGの値のようだ.

export LANG=jp

これはあまりよろしくないらしい.
というわけで,

export LANG=ja_JP.UTF-8

としておく.
なんで,今までできてたんやろう・・・・.意味がわからん.