4月の終わりごろに公開されたダンプデータで作成を試みましたが、前にも書いた通り、3順目の「エントリー149261」のところで perl が動作を停止し、異常終了してしまいました。
そこに、かつさんからコメントをいただけて、どうやらそのエントリーは「トヨタ・カローラFX」に該当するらしく、こいつをはじけばうまく作成できるんだそうです。
さっそく試してみました!
「wikipedia-fpw.conf」の100行目付近です。
#
# この正規表現 (複数指定可) にタイトルがマッチするページは書籍に
# 収録されません。
# 指定しない場合は全てマッチしなかったとみなします。
#
my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|Help|Image|画像|ファイル):',
'/履歴$',
'トヨタ・カローラFX'
);
-------------------------------------------------------------------
こんな感じに追記しておきました。
すると、うまくエントリーからはじいてくれたようで、今度はうまく作成できました。
私の環境では文字化けしてしまい、どのエントリーをはじけばいいのかわかりませんでしたが、いやぁ~、うまくいってよかったよかった。
・・・しかし、ここでまた問題が!
作成されたHONMONファイルは容量が2GBを超えており、これを圧縮するためのソフト「WinEBZip」が機能しません。あちゃ~!!
圧縮後のファイルが2GBを超えるまでは、このままいけると思っていましたが、甘かったようです。
ここまでやってきたことも・・・う~
13時間ぐらいかかったので、やたら失敗していいわけではありません。
ここはもう、「分冊」するしか策がなく、これをすればファイル数は増えるものの、ディスク容量の許す限り、ウィキペディアをリナザウで持ち運ぶことができます。
でも、分冊の方法がよくわからない。うまい具合にできる方法を模索し始めたいと思います。分冊する方向でね。
ちなみに、ウィキペディアの辞書ファイルを作成するために必要なツール「wikipedia-fpw」が4月28日に更新されたようです。入れ替えておきましょう。
それにしても、5月6日は何が変わったのでしょうか。
5月6日、問題の「トヨタ・カローラFX」の項目が修正されており、ダンプファイルがでたのはその少しあとのことなのですが、修正後の項目がうまく取り込まれていれば、先述のconfファイルの編集作業は不要だと思います。