コンテンツ配信ネットワークの CloudFlare は、昨日顧客が経験した大規模な障害について一部謝罪したが、その責任は Tier 1 プロバイダーの Telia にあると全面的に主張した。
同社のネットワークエンジニアリングマネージャーであるジェローム・フルーリー氏は、ブログ記事で、今回の事件と数日前に起きた事件の事後分析を掲載した。それによると、テリアのエンジニアがルーターの設定を誤っていたことが原因とみられ、米国と欧州で大規模なパケット損失が発生したという。
CloudFlareは、トラフィックの約半分をこのスウェーデン企業経由で処理しているため、特に大きな影響を受けました。「Teliaはかつて当社にとって最も信頼できるTier 1プロバイダーでした」とフルーリー氏は読者のコメントに応えて述べています。「私たちは今でもTeliaを信頼したいと思っています。当社を含め、多くの企業で問題が発生することはよくあることです。」
これは、CloudFlareのCEOであるマシュー・プリンス氏が昨日発表した「システム上の問題が解決されたと確信できるまで、同社は優先順位を下げる」という発言よりも、より慎重な対応だった。
ブログに投稿されたパケットロスのグラフでは、その数日前の6月17日に12分間のトラフィックの急減があったことが記録されている。CloudFlareは、問題を調査していたところ、突然解消したと述べている。
しかし、6月20日12時10分(UTC)、Teliaは再びダウンしました。今回ははるかに深刻な影響が出ました。TeliaのAS1299のパケットロスグラフは、あまり良いものではありませんでした。
「通常、トランジットプロバイダーは非常に信頼性が高く、私たちのすべてのパケットを地球上の一地点から別の地点までロスなく輸送してくれます」とフルーリー氏は記している。「それが私たちが彼らに支払っている料金です」。そして、彼は交通状況のアニメーションマップを追加し、その影響がどれほど深刻で、そして急速に現れたかを示している。
「トランジットプロバイダーは通常信頼できるので、問題を比較的早く解決してくれる傾向があります」と彼は弁明する。「しかし今回はそうはならず、UTC 12:30にTeliaのポートを停止せざるを得ませんでした。」
その結果、1時間にわたって522エラーが急増し、多くのCloudFlareの顧客が激怒しました。
通信
この時点で、会社は謝罪した。サービス停止についてではなく、連絡の遅れについてだ。
「当然ながら、当社の顧客は迅速かつ正確な情報を期待しており、影響が一刻も早く止まることを望みます」と投稿には書かれている。
「本日のインシデントにおいて、私たちのコミュニケーションに弱点があることが判明しました。インシデントの範囲が誤ってヨーロッパのみと認識され、対応時間が不十分でした。」これは、多くの人々が電話をかけてきて、一体何が起こっているのかと尋ねていたことを言い換えたものだ。
「私たちは、人間のオペレーターよりもはるかに迅速に対応できる自動検出および軽減システムの実装を含め、コミュニケーションを改善するためのあらゆる措置を講じていることを保証したいと思います。」
では、CloudFlareは、再び人々が困惑しないようにするために何をしているのでしょうか?Teliaが抱えている問題が解決するまで、Teliaの優先順位を下げるだけでなく、リモートネットワーク拠点向けに導入している自動パケットロス警告システムをメインネットワークに組み込む計画です。
「私たちは、パケット損失を積極的に検出し、パケット損失が発生しているプロバイダーからトラフィックを移動するためのメカニズム(BGP を拡張する)の構築に取り組んできました。」
同社が認めているように、事態がいかに簡単に引き起こされ、その影響がすぐに現れるかを考えると、これは危険な動きだ。
また、相互接続の強化とフェイルオーバー能力の増強を通じて「レジリエンス強化への投資」も行う。言い換えれば、バッファーの増強とTier 1プロバイダーとの契約拡大だ。
Telia社は、多くの注目を集めることに慣れていないようだ。ネットワーク事業者には適時報告書を提出すると約束しているものの、今のところ、今回の失敗についてはツイート1件以外何も語っていない。®
最近、サービスに不具合が発生しており申し訳ございません。追加のチェックとバランス調整を実施しております。現在は、お客様と直接連携し、問題解決に全力を注いでおります。
— テリア・キャリアー (@TeliaCarrier) 2016年6月21日