あさりのみそしるダイアリー

おトク情報毎日更新!だから毎日見に来いやゴルァ!!…うっ、ごめんね(´・ω・`)

2009年1月1日版のウィキペディアをリナザウに!

イメージ 1

イメージ 2

イメージ 3

以前作成したシェルスクリプトで自動的にウィキペディアの辞書データの作成をしていましたが、2回失敗しました。2回ともCドライブの容量不足が原因でした。

というか、2回目で解決に乗り出せよって感じですが、肝心なところで寝てしまいました・・・朝なのに。


CドライブはOSやアプリケーションなど、容量は大きいが移動できないような大事なファイルがたくさん入っているほか、システムの復元用のファイル、休止状態ファイルも作成されるので10GBあけるのが精一杯です。

それでも容量不足となってしまうくらい、ウィキペディアの辞書データが大きくなってしまったため、Dドライブで変換処理するようにしました。
それに対応したシェルスクリプトを「あさりのみそしる」のほうで公開した(今日更新)ので、使用してみてください。

2009年1月1日版ウィキペディアの作成には15GB程度のディスクの空きが必要です(というかあったほうが無難)。


2枚目の画像。
2009年1月1日版ウィキペディアの作成後の結果です。
項目数は、620209、かかった時間は9237秒でした。
裏で作業をしていたため時間がかかりました。作成後ZIPファイルの容量は850MB程度でした。

ちなみに、2008年11月27日版ウィキペディアより75000項目ほど増えています。ひぇ~!!
今回はリナザウ向け圧縮後のサイズは870MBほどになりました。



3枚目の画像。
新しいシェルスクリプトでは、Dドライブの「WikipediaEPWING」フォルダにウィキペディアをEPWING化したものの圧縮ファイルが残ります。



○あさりのみそしる『ウィキペディアを持ち歩け!<wikipedia-fpw を使って長期戦>』
http://asarinomisosoup.web.fc2.com/zaurus/wikipedia_0003.html



それから、ユーザー名に半角スペースがある場合、またはユーザー名が日本語の場合など、不具合がある場合があり、その場合に特集ページでは半角スペースなしの英字ユーザーを新規作成すればよいと書いていますが、正しくはこんな感じになります。

http://asarinomisosoup.web.fc2.com/zaurus/wikipedia_0001.html



最後に、cygwin の環境変数の設定です。
環境設定は、「マイ コンピュータ」を右クリックして「プロパティ」を開き、「詳細設定」タブを開いて、下の方にある「環境変数」ボタンをクリック、「ユーザー環境変数」の「新規」ボタンを押すと環境変数を追加できます。
Windows Vista の場合は、「コンピュータ」を右クリックして「プロパティ」を開き、「システムの詳細設定」を開いて、「詳細設定」タブを開き、下の方にある「環境変数」ボタンをクリック、「ユーザー環境変数」の「新規」ボタンを押すと環境変数を追加できます。

cygwin に必要なのは以下の4つです。
上記の方法で追加しておきましょう。
なお、これらの追加作業はcygwin が起動していない状態で行ってくださいね。

「変数名」CYGWIN
「変数値」ntsec

「変数名」HOME
「変数値」/home/[半角スペースのない適当な英字ユーザー名] ex) /home/asari

「変数名」MAKE_MODE
「変数値」UNIX

「変数名」SHELL
「変数値」/bin/bash」

最後は「OK」なり「適用」なりを押すことを忘れないでくださいね。「詳細設定」タブを開いて、下の方にある「環境変数」ボタンをクリック、「ユーザー環境変数」の「新規」ボタンを押すと環境変数を追加できます。



問題のあるユーザー名でも、『「環境変数」HOME』を変えることで対応できるみたいです。
それ以外にもいろいろと問題がありますが、今は時間がないので、2月に全体的に更新したいと思います。