約4,680億のウェブページを保管するインターネットアーカイブは、Cloudflareの顧客向けのフェイルオーバーサービスとなり、すべてのユーザーのウェブサイトの可用性が向上する可能性がある。
非営利団体インターネット・アーカイブのウェイバック・マシン責任者マーク・グラハム氏は木曜日、同アーカイブのウェブ中心の倉庫であるウェイバック・マシンが、クラウドフレアの「Always Online」サービスに登録されているウェブサイトのスナップショットを保存し、サイトがオフラインになった場合でもアクセスできるようにすると語った。
グラハム氏は本日のブログ投稿で、ウェイバックマシンはウェブクローラーや「今すぐページを保存」URL送信フォーム、その他のシグナルなど、さまざまなソースからのURLを長年アーカイブしてきたと述べた。
今後、Wayback Machine には、Cloudflare の顧客に無料で提供されてきた 10 年以上の歴史を持つサイト可用性サービスである Cloudflare Always Online に登録されている Web サイトも含まれるようになります ( The Register もその 1 つです)。
「われわれがやろうとしているのは、どんなことがあっても、すべての顧客のサイトが利用可能で信頼できる状態を保つことだ」とクラウドフレアのマシュー・プリンス最高経営責任者(CEO)は木曜日の電話インタビューで語った。
プリンス氏によると、大規模顧客はホスティングインフラを安定的に運用するリソースを有しているものの、小規模顧客はホスティングプロバイダがオフラインになった際に問題に直面する可能性があるという。「コンテンツにアクセスできなければ、ネットワーク全体に配信することはできません」とプリンス氏は述べた。同氏の会社は、ウェブパブリッシャーがネットワークエッジのエンドポイントを介してキャッシュされたウェブデータを配信する支援などを行っている。
Cloudflareは、会社設立直後の2010年からこれに取り組んできました。
「特に小規模の顧客向けに、私たちが提供したいと思っていたことの一つは、どんな状況でもオンライン状態を維持できるサービスでした」とプリンス氏は語った。
サービスの初期バージョンは「問題なく動作した」と彼は説明したが、Cloudflareが内部情報や個人情報をキャッシュしないようにするという課題に直面した。また、多くのサイトは簡単にカタログ化できなかった。
インターネットアーカイブの裏側:教会に10PB以上のストレージ…そして真実を守るためのちょっとした戦い
続きを読む
プリンス氏によると、ウェブサイトがオフラインになった場合、Cloudflareが何をキャッシュし、何を表示できるかを判断するのは困難だったという。当初、同社はGoogleのクローラーがどこを移動したかを監視し、それらのページをキャッシュできると想定していた。
Googleのトラフィックがすべてバージニア州アッシュバーンにあるCloudflareのデータセンターに流れていた時期は、この方法で十分に機能していました。しかし、ここ10年でGoogleのクロールインフラは複雑化しました。プリンス氏によると、5年前、Cloudflareはギャップを埋めるために独自のクローラーを開発しましたが、このプロジェクトは十分な注目を集めることはありませんでした。
「私たちはウェブサイトをクロールする仕事をしているわけではないので、これは最も賢いクローラーではなかったのです」と彼は語った。
約1年前、Cloudflareのプロダクトマネージャーが、インターネットアーカイブが膨大なウェブのコピーを保有していると指摘したため、ネットワークサービス業界は2つの組織が協力できるかどうか検討し始めた。
「これにより、インターネット アーカイブがウェブのより完全な全体像を把握できるようになり、さらに徹底的かつ優れたものになることを期待しています (同時に、顧客にも役立ちます)」とプリンス氏は述べた。
更新されたAlways Onlineサービスでは、クロールのためにホスト名や人気のURLなど、ウェブサイト情報をインターネットアーカイブに提供していただく必要があります。その後、サイトがネットワークリクエストに応答しない場合、Cloudflareは520~527の範囲のステータスコードを返します。
その後、エッジデータセンターにキャッシュされたコンテンツの古いバージョン、または期限切れのバージョンを、リクエスト元のウェブサイト訪問者に提供しようとします。データが見つからない場合は、インターネットアーカイブに最新のサイトキャプチャを要求し、元のウェブサイトにアクセスできないことを示すバナーとともに提供します。
グラハム氏はThe Register宛の電子メールで、インターネットアーカイブとCloudflareとの契約にはいかなる金銭的またはインフラ的なサポートも伴わないと述べた。
「しかし、これまでご支援いただいた多くの個人、団体、企業の皆様、そして今後ご支援いただけるかもしれない皆様には、心より感謝申し上げます」と彼は述べた。「私たちは、何よりもまず、皆様のお役に立てるよう努めております。」
グラハム氏は、Cloudflare Always Onlineの顧客からのデータ保存がインターネット・アーカイブのインフラコストの増加につながることを認めた。「また、URL経由で、これまでは知ることのできなかったウェブベースのリソースを知ることができるというメリットもあります。このパートナーシップにより、より多くのパブリックウェブをアーカイブする作業効率が向上します」とグラハム氏は述べた。®