昔のWebサイトやページを見る方法“迷探偵”ハギーのテクノロジー裏話

「あのWebサイトはどんなものだったかな」とアクセスしてみると、消滅したり、見たいページが存在しないという場合がある。それを調べることができる方法をご紹介しよう。

» 2012年08月24日 08時00分 公開
[萩原栄幸,ITmedia]

 先週に引き続いてPC初心者向けに、PCを活用していただく上で役立つツールをご紹介したい。今回は過去にあったWebサイトやWebページを見つける方法についてお伝えしよう。

 筆者は昔、某銀行にて先端技術の調査や研究、テストを行う実験室の責任者としてさまざまな活動してきた。その際に実際に発生した事例の幾つかを紹介したい。

その1:ネットワーク系のソフトウェアやハードウェアの販売、ネットワークの設置、運用を行っていた某IT企業があった。ある日、銀行の融資部から次のような相談があった。「A株式会社は創立当時、外資系のネットワーク製品の販売代理をしていたらしい。同社に関する当時の資料は10年近く前のもので、同社の創立時の混乱もあってか社内にほとんど残っていないそうだ。その頃は毎年、製品の販売実績や納入先をホームページに掲載していたらしく、今は一部のコピーしかないのだが、とても参考になる資料だ。できれば、当時のホームページの内容を3年分ほど探してはくれないか」

その2:5年ほど前に倒産したB株式会社、今はその痕跡すらない。しかし、ある企業の融資の依頼があって調べたところ、かつてはB株式会社と密接な関係であり、当時のホームページにはさまざまな情報が掲載されていた。これも「既に倒産しているB株式会社について、当時のホームページにどういう情報があったのか知りたい」という相談だった。

その3:このケースはプライベートでのことだが、ある時、近所の大学生と偶然にも駅からの帰宅が一緒になり、その途中で次の依頼があった。「数年前にとても好きなインディーズのグループがありました。彼らのロックは心から好きだったので夢中になっていたんです。でも、ある日突然にそのグループは解散してしまって、僕がその情報を知ったのが1週間くらい後でした。せめて最盛期の頃の演奏風景や自作の曲を見たいのですが、ホームページがもうクローズされていたので、何とかなりませんか」

どうやって?

 こうした今はないWebサイトやWebページをどうすれば見られるだろうか。それをできるかもしれないのが、「インターネット・アーカイブ(Internet Archive)」である。

 このトップページの真ん中に「WeyBackMachine」と記載され、その横に「http://」で始まる入力欄がある。そこで調べたい現存しているURLや消滅してしまったURLを入力し、その下にある「Take Me Back」ボタンを押す。たったこれだけである。

 ITmediaを例に解説すると、まず「http://」の後にURLの続きとなる「www.itmedia.co.jp」を入力して、直下の「Take Me Back」ボタンを押す。しばらくするとカレンダーが表示される。

 このカレンダーは上部に時系列で西暦が表示され、特定の年が黄色で表示されている。その下に「月」との「日」のカレンダーがある。ここは「今年」と思われるかもしれないが、このWebサイトでデータが公開されるまでには半年〜1年ほどかかることが多いので、この表示で確認しないといけない。通常は前年、つまり今のタイミングで最新のものを選択しても2011年のデータとなる可能性が高い。

 また上の説明文の中に「792 times」という記述があるが、これが重要だ。つまり、ITmediaのWebサイトについて合計で792回スナップショットしたという意味である。また「10月 11, 2003」という記述もあるが、これはITmediaサイトを初めてスナップショットしたのが2003年10月11日だという意味だ。

 この操作方法だが、例えば、デフォルトで表示されている2011年カレンダーの中で青印が付いた日が幾つかある。7月7日にカーソルを合わせると、ポップアップで「7月7, 2011 2snapshots 12:39:45 23:21:05」と表示される。これは同じ日に2回スナップショットを実行しているので、どちらを表示するのかということだ。

 試しに「12時39分45秒」の方にカーソルを合わせ、クリックしてみる。ただ、この時間は単に目安として考えてもらいたい。後述するが、あまりにも膨大な量のデータなので、その次の23時21分までの間にスナップしたものと考えれば良い。すると、おなじみのITmediaのトップ画面が表示される。そこの更新日は「2011年07月07日 21時36分」となっている。

 これより深い層の内容は、あったりなかったりするが、たいていは不完全(画像がない)ながら、文字データは概ね読める。では最も古いページをみてみよう。上の年代別のチャートで2003年をクリックする。一番古いのは2003年10月11日だ。この部分をクリックしてみる。すると……。

coming soon!

「ITmedia」は2004年1月8日にスタートします!

 IT系総合情報サイト「ZDNet JAPAN」は、2004年1月8日に新ブランド「ITmedia」に改名、より充実した総合IT情報サービスの提供に努めて参ります。

 IT技術や製品の研究・開発に携わる方、またそれらを企画・販売する方だけでなく、購入・活用・運用する方など、すべてのIT利用者にとって、いつでもどこからでも「ITmedia」にアクセスすることで、便利で質の高いIT情報を仕事や生活に役立てて頂ける情報サービスを目指して参ります。


 と表示される。「そうか! ITmediaは2004年1月8日にできたんだ!」という事実が分かる次第だ。

Internet Archiveとは?

 WiKipediaではInternet Archiveを次のように解説している

インターネット・アーカイブ(Internet Archive)は、Web・マルチメディア資料のアーカイブを運営している団体である。本部はカリフォルニア州サンフランシスコのプレシディオに置かれている。

アーカイブには、「WWWのスナップショット」と呼ばれる、ある時点において収集されたウェブページのコピー(ウェブアーカイブ)や、ソフトウェア・映画・本・録音データ(バンド等の許可によるライブ公演の録音も含む)などがある。アーカイブは、その資料を無償で研究者や歴史家などに提供している。


 データ量は1500億ページとある。2009年時点で準備しているHDDの容量は3ぺタバイトと、WikiPediaなどでは説明しており、今ではもっと多くの容量を準備しているだろう。ただこのWebサイトにも若干の弱点はある。それは画像データがない場合が多いことだ。また反映されるまでには、ある程度時間がかかる。Google検索のハッシュの方に残っているものも存在する。全体量はInternet Archiveの方がはるかに多いが、直近のWebサイトについてはGoogleの方が豊富にある。

 今回は初心者向けに紹介したものであり、このWebサイトの運営の意図や政治的背景については割愛した。物足りなさを感じる読者もいるかも知れないがご容赦願いたい。また前回にもお伝えしているが、善良な意識をもって有効に活用してほしい。くれぐれも悪用することは絶対にやめていただきたい。

萩原栄幸

日本セキュリティ・マネジメント学会常任理事、一般社団法人「情報セキュリティ相談センター」事務局長、社団法人コンピュータソフトウェア著作権協会技術顧問、ネット情報セキュリティ研究会相談役、CFE 公認不正検査士。旧通産省の情報処理技術者試験の最難関である「特種」に最年少(当時)で合格した実績も持つ。

情報セキュリティに関する講演や執筆を精力的にこなし、一般企業へも顧問やコンサルタント(システムエンジニアおよび情報セキュリティ一般など多岐に渡る実践的指導で有名)として活躍中。「個人情報はこうして盗まれる」(KK ベストセラーズ)や「デジタル・フォレンジック辞典」(日科技連出版)など著書多数。


Copyright © ITmedia, Inc. All Rights Reserved.

注目のテーマ