インターネットアーカイブの裏側:教会に10PB以上のストレージ…そして真実を守るためのちょっとした戦い

Table of Contents

インターネットアーカイブの裏側:教会に10PB以上のストレージ…そして真実を守るためのちょっとした戦い

水曜日、カリフォルニア州サンフランシスコにあるインターネット アーカイブの本部に、技術者、教育者、アーカイブ担当者、その他事実を重視する人々が集まり、自分たちや同じ考えを持つ人々が、記憶の穴からニュースをどのように救うことができるかについて議論しました。記憶の穴とは、ジョージ・オーウェルが真実を変える政治的メカニズムを説明するために考案した概念です。

このイベント「Dodging the Memory Hole 2017」は、ドナルド・W・レイノルズ・ジャーナリズム研究所の主催と、博物館図書館サービス研究所の助成金を受けて、2014年以来5回目の開催となった。これは、米国のニュース出版社がトランプ政権からの敵意の高まりや、継続的な収益圧力に直面している時期に開催される。

この組織は、サンフランシスコのリッチモンド地区にある古くて壮麗なクリスチャンサイエンス教会を拠点としており、デジタル図書館らしく、書籍、音声・動画録音、テキスト、ソフトウェアなどのオンラインコピーを保管しています。最もよく知られているのは、おそらくWayback Machineでしょう。これは、パブリックインターネットから自動的に収集された3,080億件のウェブページのバックアップキャッシュです。データは、総容量35PBのカリフォルニアのサーバーに保存されており、そのうち10PBは教会の裏手に設置されていました。

ブリュースター・カーレ

インターネットアーカイブ創設者ブリュースター・カーレ

インターネットアーカイブの公共目的を強調するため、カール氏は2003年5月1日にホワイトハウスがイラク戦争について「ブッシュ大統領、イラクにおける戦闘作戦の終結を発表」という声明を発表した経緯を説明した。この声明はその後、予告なく「ブッシュ大統領、イラクにおける主要戦闘作戦の終結を発表」と修正された。

その後、ブッシュ大統領の声明はウェブ上から削除されましたが、インターネットアーカイブには保存されたままでした。少なくともオバマ政権の観点から見れば、イラクにおける戦闘作戦が実際に終了したのは2011年12月でした。

「ネットから情報を取得して、それを記憶の穴に捨てることができないようなものにしたいのです」とカーレ氏は語った。

カール氏をはじめとする関係者は、今日の政治情勢がデジタル保存への取り組みに緊急性を増していることを明確にした。2016年の選挙後、インターネット・アーカイブとその懸念を抱くアーキビスト・コミュニティは、情報が消失する恐れを懸念し、政府のウェブサイトやデータベースから100テラバイトもの情報を収集することに取り組んだ。これは終わりの見えない仕事だ。

「インターネットコンテンツは現在、非常に危険な状況にある」とスタンフォード大学のLOCKSSパートナーシップ・マネージャー、アート・パスクイネリ氏は語った。

パスキネッリ氏は、インターネット上の情報はソーシャルネットワークを通じてフィルタリングされ、断片化されていると指摘した。多くの場合、有用な文脈を欠いた形で提示され、データセットにアクセスできなくなる可能性もある。

インターネットアーカイブのサーバー

インターネットアーカイブに保存されている35PBのうち10PB…そう、教会の涼しい空気の中で

朗報があるとすれば、インターネット・アーカイブ自体が、少なくとも大規模な攻撃を受けておらず、その活動を阻止できていないことだ。「私たちが保管している記録を改ざんしようとするようなことは見られません」とカーレ氏はThe Register紙に語った。「攻撃を受けたと感じたことはありません。私たちは主に、本来の目的のために利用されてきました。」

インターネット アーカイブは、誤情報の拡散を防ぐことよりも、あらゆる種類の情報に確実にアクセスできるようにすることに重点を置きます。

「私たちは判断力に優れた組織ではありませんが、コレクションを構築し、それを永続的なものにすることはできます」とカーレ氏は語った。

カール氏は、ソーシャル ネットワークがデータをより利用できるようにすることを望んでいる。

「Facebookが以前掲載していた広告がなくなったのは不思議だ」と彼は述べた。これは、米大統領選中にロシアが支援する分断を招いた政治広告や投稿をFacebookが配信し、その後消失させたことに触れたもので、「Facebookもおそらく広告がないだろう。Facebookのアーカイブをきちんと管理できていないからだ」と付け加えた。

このイベントで発表された人々の中で、焦点となったのは、デジタルアーカイブソフトウェアLOCKSSや、オンラインでの参照の腐敗を防ぐためにより多くの情報を追加するための提案であるRobust Linksなど、情報を生き生きと保つためのツールでした。

参照腐敗には、ページ上のリンクが機能しなくなるリンク腐敗と、コンテンツ編集によって過去の引用が損なわれるコンテキストドリフトの両方が含まれます。

インターネット・アーカイブは、ボットによる参照情報の劣化と闘ってきた。インターネット・アーカイブのウェイバック・マシン・ディレクター、マーク・グラハム氏は、アーカイブが過去1年間、ウィキペディアと協力して約380万件のリンク切れを発見し、修正したと述べた。

「私たちが取り組んでいる問題の一つは、ウェブの信頼性を高めることです」とグラハム氏は語った。

インターネット・アーカイブにはいくつかの夢があるとカール氏は言う。一つは、データの最新コピーを米国外に持ち出すことだ。オフサイトバックアップは重要だからだ。ミラーはエジプトのアレクサンドリア図書館とヨーロッパの拠点に保管されている。もう一つは、分散型ウェブだ。そして、脚注に関する夢もある。

「すべての脚注を青色にしたいんです」とカール氏は言った。「MacのプレビューやFirefoxにバンドルされているPDFビューアが脚注を探し出してハイパーテキストリンクに変換してくれたら素晴らしいと思いませんか?」®

Discover More