WebArchive一括DLスクリプト
ネットランナー5月号向けに、WebArchiveから一サイト分丸ごとのデータをダウンロードするスクリプト「Warrick.exe」を書きました。順を追って説明すると
- 「インターネットの図書館」とも呼ばれるWebArchiveには、閉鎖済みサイトなども含め過去のウェブサイトキャッシュが大量に眠っています
- しかしWebArchiveキャッシュは表示が重いし日本語はまず間違いなく文字化けする。1ページ読むならともかく、サイト一気読みに使うと結構ストレス貯まる
- そこで一サイト分のデータを丸ごとダウンロードしローカル上で鑑賞するための「Warrick」というツールがあります(参考:閉鎖済みサイトをWebArchiveキャッシュから一括DLする「Warrick」)
- ただ、Warrickはコマンドラインでの操作が必要なので、そこらへんに不慣れだと少し使いにくい
- で、今回作成した「Warrick.exe」は、Warrickを簡単に使うためのスクリプトです
と、いった感じです
使い方はネットランナー5月号で書いてるので短縮説明しますが、
- 「閉鎖済みサイトをWebArchiveキャッシュから一括DLする「Warrick」」を参考に、ActivePerlとWarrickを導入してください(参考サイトのSS一点目)
- WebArchiveで検索を行い、一括ダウンロードしたいサイトのトップページを開いてURL(http://web.archive.org/web/数字/元サイトのURL)をコピーしてください
- この状態でWarrick.exeを起動してください。選択肢が表示されますが基本的に「はい」
- コマンドプロンプトが開き、当該サイト一括ダウンロードが始まります
- コマンドプロンプトが閉じたらダウンロード完了。Warrick.exeのあるフォルダ内にドメイン別フォルダが作られ、中にデータが保存されているはずです。ちなみに落としたファイルを使ったHDD上での鑑賞の場合、日本語ページでも基本的に文字化けは発生しません
- 上手く1サイト分を落とせてない場合は、再度Warrick.exeを起動し、選択肢で「いいえ」をクリックすれば今度は上手く落とせる可能性があります
- それでも無理なら無理です
と、いう感じです。
Warrick.exe 2007/03/23 (via ツール保管庫.net)
ちなみに補足的に書いておくと、WebAcrhiveは、サイト内リンクが絶対アドレスなサイトの場合、サイト内リンクを「WebArchiveキャッシュであるところのサイト内ページ」に書き換えてくれないのですよ。……という説明で意味が分からない人向けに意味を伝えようと思うと結構長くなるので省略しますが、結論だけ言うと、上手くサイト内リンクが働かない場合がある。で、Warrick+このスクリプトは、そこらへんは上手い具合に適当に1サイト分のキャッシュを収集し、HDD上でサイト内リンクを普通に使ってサイト一気読みとかできるようにしてくれる、はずです。

TrackBack
この記事へのトラックバック