ウィキペディアをEPWING形式に変換してオフラインで楽しむ方法については、今までいろいろ書いてきましたが、今日もちょっと違ったことをしてみます。
ちなみに、昨日はウィキブックスについて説明しました。今日はウィキニュースについてやってみます。
なんとなく、昨日の記事と似ていますが、そこはあえて見なかったことに・・・
実は、ウィキペディア以外のプロジェクトのダンプファイルもダウンロードできます。今回はウィキブックスを変換したいので、以下のリストからウィキペディアと同じように「jawikinews-latest-pages-articles.xml.bz2」をダウンロードします。
http://download.wikimedia.org/jawikinews/
ウィキペディアと違って、3.2MBほどなので、ほとんど時間がかかりません。
その後、解凍してファイル名を「wikipedia.xml」に変更します。
これもウィキペディアと同じように、
http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw
から
wikipedia-fpw-20090428-src.tar.gz
をダウンロードして解凍します。ここからはCygwinでやったほうがいいかもしれませんね。
-------------------「Cygwin」-------------------
tar zxvf wikipedia-fpw-20090428-src.tar.gz
------------------------------------------------
解凍したファイルの中に「catalogs.txt」があるので、まずはエディタでこれを編集します。
-------------------「catalogs.txt」-------------------
[Catalog]
FileName = catalogs
Type = EPWING1
Books = 1
[Book]
Title = "ウィキニュース日本語版"
BookType = 5001
Directory = "WIKINEWS"
------------------------------------------------------
加えて「wikipedia-fpw.conf」も編集します。
-------------------「wikipedia-fpw.conf」-------------------
数式はとりあえず収録しないことにするので、
<38行目>
'enable_math' => 0,
不要なエントリーは除外したいので、
<97行目>
my @skip_headings = (
'^(Wikipedia|Wikinews|MediaWiki|Template|WP|Portal|Category|Help|Image|画像|ファイル|ウィキニュース):',
'/履歴$',
);
------------------------------------------------------------
できたら両方とも上書き保存して、ファイル「wikipedia.xml」をフォルダ「wikipedia-fpw-20090428」に移動します。
そしたら、あとはCygwinから・・・
-------------------「Cygwin」-------------------
fpwmake
fpwmake catalogs
fpwmake package
------------------------------------------------
これでOK!
ほとんど時間はかかりません。
あとは、変換した辞書を圧縮するなりなんなり、好きにしてください。
なお、フォルダ名は「WIKIP」になっているので、これを「Directory = "WIKINEWS"」で指定した名前(ここではWIKINEWS)にしておいてください。でないとうまく読み込まれません。
ウィキニュースには、ちょっとしたニュース記事がいくらかのっているので、何か検索した単語に関するニュースを合わせてみるのにはいいかもしれませんが、それ以上の活用方法というのはよくわかりません。まぁ、入れたい人は入れればいいという感じですかね。
ここでは簡単に説明しましたが、手順はほとんどウィキペディアの場合と同様です。
わからなければ、こちらを参考にしてください。ウィキペディアの変換手法ではありますが。
○あさりのみそしる「ウィキペディアを持ち歩け!」
http://asarinomisosoup.web.fc2.com/zaurus/wikipedia.html
Firefoxでも表示できるようになりました。あと、JavaScriptはONにしてください。
書式が同じなので、ウィキペディアではない姉妹プロジェクトでも変換に成功しました。次回はウィクショナリーについて取り上げてみます。