ウィキペディアをEPWING形式に変換してオフラインで楽しむ方法については、今までいろいろ書いてきましたが、今日もまたちょっと違ったことをしてみます。
ちなみに、おとといはウィキブックス、昨日はウィキニュースについて説明しました。今日はウィクショナリーについてやってみます。
なんとなく、これまでの記事と似ていますが、そこはあえて見なかったことに・・・
実は、ウィキペディア以外のプロジェクトのダンプファイルもダウンロードできます。今回はウィキブックスを変換したいので、以下のリストからウィキペディアと同じように「jawiktionary-latest-pages-articles.xml.bz2」をダウンロードします。
http://download.wikimedia.org/jawiktionary/
ウィキペディアと違って、8MBほどなので、ほとんど時間がかかりません。
その後、解凍してファイル名を「wikipedia.xml」に変更します。
これもウィキペディアと同じように、
http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw
から
wikipedia-fpw-20090428-src.tar.gz
をダウンロードして解凍します。ここからはCygwinでやったほうがいいかもしれませんね。
-------------------「Cygwin」-------------------
tar zxvf wikipedia-fpw-20090428-src.tar.gz
------------------------------------------------
解凍したファイルの中に「catalogs.txt」があるので、まずはエディタでこれを編集します。
-------------------「catalogs.txt」-------------------
[Catalog]
FileName = catalogs
Type = EPWING1
Books = 1
[Book]
Title = "ウィクショナリー日本語版"
BookType = 5001
Directory = "WIKTION"
------------------------------------------------------
加えて「wikipedia-fpw.conf」も編集します。
-------------------「wikipedia-fpw.conf」-------------------
数式はとりあえず収録しないことにするので、
<38行目>
'enable_math' => 0,
不要なエントリーは除外したいので、
<97行目>
my @skip_headings = (
'^(Wikipedia|Wiktionary|MediaWiki|Template|WP|Portal|Category|Help|Image|画像|ファイル|ウィキニュース):',
'/履歴$',
'あおい',
'one',
'ありがとう',
'天',
'のむ',
'大本営発表',
'and',
'こうじょう',
'公算',
'こうせい',
'および',
'PC',
'アメリカ合衆国',
'しんせい',
'性',
'gold',
'大臣',
'チェス',
'眼',
'比',
'筋',
'穴',
'縁',
'set',
'home',
'side',
'てにをは',
'こよみ',
'まげる',
'こうてい',
'せいか',
'きかん',
'そうし',
'いれる',
);
------------------------------------------------------------
今月の9日にアップロードされたファイルを用いて行ったものです。
今回はエラーが発生して不正終了してしまう単語が多く見られたので、完成させるのに時間がかかりました。上記で収録しないこととしている単語が問題のあるものなのですが、ウィクショナリー側のどこを修正すればよいのかわからないので、そこは他の方に任せます。
ちなみに、先日かつさんが紹介してくださったサイトの方法で処理中のエントリー名を文字化けせずに表示させられるようになったので、問題のある単語の発見が容易でした。これについてはまたいつか書きます。
できたら両方とも上書き保存して、ファイル「wikipedia.xml」をフォルダ「wikipedia-fpw-20090428」に移動します。
そしたら、あとはCygwinから・・・
-------------------「Cygwin」-------------------
fpwmake
fpwmake catalogs
fpwmake package
------------------------------------------------
これでOK!
ほとんど時間はかかりません。
あとは、変換した辞書を圧縮するなりなんなり、好きにしてください。
なお、フォルダ名は「WIKIP」になっているので、これを「Directory = "WIKTION"」で指定した名前(ここではWIKTION)にしておいてください。でないとうまく読み込まれません。
ウィクショナリーには、広辞苑などの辞書のように単語レベルの説明が書かれていますが、今のところ項目数や内容はそこまで多くはなさそうで、一般的な辞書の代わりに使えるまでには至っていないように感じます。それこそ、ウィキペディアで十分なくらいですが、ちょこっとした辞書的な説明を調べたい場合はウィキペディアよりはるかに容量が小さいので便利かもしれません。
ここでは簡単に説明しましたが、手順はほとんどウィキペディアの場合と同様です。
わからなければ、こちらを参考にしてください。ウィキペディアの変換手法ではありますが。
○あさりのみそしる「ウィキペディアを持ち歩け!」
http://asarinomisosoup.web.fc2.com/zaurus/wikipedia.html
Firefoxでも表示できるようになりました。あと、JavaScriptはONにしてください。
書式が同じなので、ウィキペディアではない姉妹プロジェクトでも変換に成功しました。次回はウィキソースについて取り上げてみますが、まだやっていないのであくまで予定です。