あさりのみそしるダイアリー

薄給サラリーマンのほんわかしゃちくブログ

ウィキペディア09年5月版をリナザウに!

イメージ 1

ウィキペディアのダンプデータ(辞書作成時のもとになるファイル)が5月6日の3時頃、公開されていたそうです。前回の公開からまだ2週間ほどしかたっていません。

4月の終わりごろに公開されたダンプデータで作成を試みましたが、前にも書いた通り、3順目の「エントリー149261」のところで perl が動作を停止し、異常終了してしまいました。

そこに、かつさんからコメントをいただけて、どうやらそのエントリーは「トヨタ・カローラFX」に該当するらしく、こいつをはじけばうまく作成できるんだそうです。


さっそく試してみました!


「wikipedia-fpw.conf」の100行目付近です。

#
# この正規表現 (複数指定可) にタイトルがマッチするページは書籍に
# 収録されません。
# 指定しない場合は全てマッチしなかったとみなします。
#
my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|Help|Image|画像|ファイル):',
'/履歴$',
'トヨタ・カローラFX'
);


-------------------------------------------------------------------

こんな感じに追記しておきました。
すると、うまくエントリーからはじいてくれたようで、今度はうまく作成できました。

私の環境では文字化けしてしまい、どのエントリーをはじけばいいのかわかりませんでしたが、いやぁ~、うまくいってよかったよかった。



・・・しかし、ここでまた問題が!

作成されたHONMONファイルは容量が2GBを超えており、これを圧縮するためのソフト「WinEBZip」が機能しません。あちゃ~!!

圧縮後のファイルが2GBを超えるまでは、このままいけると思っていましたが、甘かったようです。

ここまでやってきたことも・・・う~

13時間ぐらいかかったので、やたら失敗していいわけではありません。

ここはもう、「分冊」するしか策がなく、これをすればファイル数は増えるものの、ディスク容量の許す限り、ウィキペディアをリナザウで持ち運ぶことができます。

でも、分冊の方法がよくわからない。うまい具合にできる方法を模索し始めたいと思います。分冊する方向でね。


ちなみに、ウィキペディアの辞書ファイルを作成するために必要なツール「wikipedia-fpw」が4月28日に更新されたようです。入れ替えておきましょう。


それにしても、5月6日は何が変わったのでしょうか。
5月6日、問題の「トヨタ・カローラFX」の項目が修正されており、ダンプファイルがでたのはその少しあとのことなのですが、修正後の項目がうまく取り込まれていれば、先述のconfファイルの編集作業は不要だと思います。