ウィキペディアをEPWING形式に変換してオフラインで楽しむ方法については、今までいろいろ書いてきましたが、今日もまたまたちょっと違ったことをしてみます。
似たような記事ばかりでしたが、いよいよ今日で最終回です。ザ・クイズショーも、さきほど最終回を迎えましたが、この関連記事の最終回はそんな感動モノではありません(連続した手抜き様にあきれるくらいのものですが、まぁ、これまで通り書いていきますけどね)。
実は、ウィキペディア以外のプロジェクトのダンプファイルもダウンロードできます。今回はウィキクォートを変換したいので、以下のリストからウィキペディアと同じように「jawikiquote-latest-pages-articles.xml.bz2」をダウンロードします。
http://download.wikimedia.org/jawikiquote/
ウィキペディアと違って、1MBもないなので、ほとんど時間がかかりません。
その後、解凍してファイル名を「wikipedia.xml」に変更します。
これもウィキペディアと同じように、
http://ikazuhiro.s206.xrea.com/staticpages/index.php/wikipedia-fpw
から
wikipedia-fpw-20090428-src.tar.gz
をダウンロードして解凍します。ここからはCygwinでやったほうがいいかもしれませんね。
-------------------「Cygwin」-------------------
tar zxvf wikipedia-fpw-20090428-src.tar.gz
------------------------------------------------
解凍したファイルの中に「catalogs.txt」があるので、まずはエディタでこれを編集します。
-------------------「catalogs.txt」-------------------
[Catalog]
FileName = catalogs
Type = EPWING1
Books = 1
[Book]
Title = "ウィキクォート日本語版"
BookType = 5001
Directory = "WIKIQ"
------------------------------------------------------
加えて「wikipedia-fpw.conf」も編集します。
-------------------「wikipedia-fpw.conf」-------------------
数式はとりあえず収録しないことにするので、
<38行目>
'enable_math' => 0,
不要なエントリーは除外したいので、
<97行目>
my @skip_headings = (
'^(Wikiquote|ウィキクォート|MediaWiki|Template|WP|Portal|Category|Help|Image|画像|ファイル):',
'/履歴$',
);
------------------------------------------------------------
今回のウィキソースは今月16日にアップロードされた、現時点で最新版のダンプファイルを使用しました。特にエラーもなく、すんなり通りました。
できたら両方とも上書き保存して、ファイル「wikipedia.xml」をフォルダ「wikipedia-fpw-20090428」に移動します。
そしたら、あとはCygwinから・・・
-------------------「Cygwin」-------------------
fpwmake
fpwmake catalogs
fpwmake package
------------------------------------------------
これでOK!
ほとんど時間はかかりません。
あとは、変換した辞書を圧縮するなりなんなり、好きにしてください。
なお、フォルダ名は「WIKIP」になっているので、これを「Directory = "WIKIQ"」で指定した名前(ここではWIKIQ)にしておいてください。でないとうまく読み込まれません。
ウィキクォートには、ことわざや歴史上の人物などの有名人のことばなどが収録されています。
ここでは簡単に説明しましたが、手順はほとんどウィキペディアの場合と同様です。
わからなければ、こちらを参考にしてください。ウィキペディアの変換手法ではありますが。
○あさりのみそしる「ウィキペディアを持ち歩け!」
http://asarinomisosoup.web.fc2.com/zaurus/wikipedia.html
Firefoxでも表示できるようになりました。あと、JavaScriptはONにしてください。
書式が同じなので、ウィキペディアではない姉妹プロジェクトでも変換に成功しました。次回はウィキペディア関連で、処理中のエントリー名を文字化けさせずに表示させる方法を扱いたいと思いますが、いつになるかはわかりません・・・(コピペが通用しないからね(ぉぃ