いくつかの不良ネットワークパケットが大規模な連鎖反応を引き起こし、米国の通信会社 CenturyLink のネットワーク全体が約 1 日半にわたって機能停止に陥った。
これは、2018年12月に発生した大規模障害に関するFCCの公式調査報告書[PDF]に基づくものです。この障害では、CenturyLinkのブロードバンドインターネットとVoIPサービスがダウンし、合計37時間にわたって利用できなくなりました。このため、加入者はVoIP経由で911に電話をかけることができませんでした。これはFCCの規則に違反しており、正式な調査が開始されました。
「今回の障害は、ネットワーク設定エラーによって壊滅的に悪化した機器の故障が原因である」と、米国の通信規制当局は昨日公表した調査概要で述べた。
「この障害は、さまざまなプロバイダーから全国各地に通信トラフィックをルーティングする CenturyLink のトランスポート サービスに直接的または間接的に依存していた通信サービス プロバイダー、企業顧客、消費者に影響を及ぼし、911 通報を含む電話サービスの大規模な中断を引き起こしました。」
CenturyLinkは、アメリカ各地を結ぶデジタル帝国のバックボーンとなる6つの長距離ネットワークを保有しています。これらのネットワークは、Infinera社製のノードを用いて高速光ファイバー経由でパケットをスイッチングします。各ノードに流入するデータは他のノードに送られ、最終的にはVoIPや通常のインターネットトラフィックなどを必要に応じて全米に送り届けます。
障害の根本原因は、コロラド州デンバーのノード内のスイッチングモジュールによって生成された4つの不正なネットワークパケットであると伝えられています。原因はまだ不明ですが、これらのパケットは他のノードに送信されました。これらの不正なパケットはすべて、以下の特性を持っていました。
不正なパケットはそれぞれノードに到達し、拒否され、一連のフィルターを通過して管理チャネルに注入され、接続しているすべてのノードに渡されます。FCC提供のフロー図をご覧ください。破損したパケットが最終的にすべての隣接ノードに転送され、さらにその先へと転送されていく様子が示されており、破損したパケットの連鎖反応が拡大していく様子が分かります。
クリックして拡大
FCCは報告書の中で、「パケットのブロードキャスト宛先アドレスにより、不正なネットワーク管理パケットは接続されたすべてのノードに配信された。その結果、パケットを受信した後続の各ノードは、不正なパケットの送信元ノードを含む、接続されたすべてのノードにパケットを再送信した」と述べている。
「接続された各ノードは、パケットが有効であるように見え、有効期限も設定されていなかったため、独自の管理チャネルを介して、接続先の各ノードに不正なパケットを再送信し続けました。このプロセスは無期限に繰り返されました。」
ご想像のとおり、指数関数的に増加するパケットの嵐はすぐにCenturyLinkの光ファイバーバックボーンを圧倒し、通常のトラフィックの流れが停止しました。VoIP電話は機能しなくなり、インターネットアクセスは速度低下し、停止するなど、様々な問題が発生しました。ニューオーリンズの人々が最初に接続の停止に気づいたのは、12月27日午前3時56分頃(米国東部標準時)でした。
ここで事態は最悪の事態へと転じました。光ファイバーネットワーク上のノードはパケットの洪水に見舞われ、管理者がトラブルシューティングのためにアクセスできなくなりました。技術者たちは、この洪水を引き起こしたコロラド州の単一のノードをようやく突き止めることができたのは、約15時間後のことでした。しかし、そのノードを交換しても状況は改善しませんでした。パケット津波は依然として行き来し、ノードを次々と倒していきました。
米国各州、センチュリーリンクのクリスマスデータセンター停止で911システムに支障をきたした事件の監視団体に加わる
続きを読む
「12月27日21時2分、CenturyLinkのネットワークエンジニアは、不正なパケットを生成したモジュールを特定し、削除しました」と報告書は指摘している。「しかし、障害はすぐには解消されず、不正なパケットは複製され続け、ネットワークを通過し、ノードからノードへとエコーしながらさらに多くのパケットを生成しました。」
CenturyLinkのネットワーク管理者が他のノードにアクセスし、不正パケットの拡散を阻止するまでには、さらに3時間かかりました。ネットワークの可視性が回復したのは12月28日11時30分、そしてすべてのノードが復旧したのは23時36分でした。12月29日正午過ぎ、CenturyLinkはようやく危機の終息を宣言しました。
FCCは、「この事故により、センチュリーリンクの光ファイバーネットワークで全国的な音声、IP、トランスポートの停止が発生した。センチュリーリンクは、この事故により12,100,108件の通話がブロックまたは劣化したと推定している」と述べた。
「長距離音声通話では通話品質の問題が発生し、一部の顧客には高速話中信号が流れ、一部の顧客にはエラーメッセージが流れ、また一部の顧客には言葉が判読できないひどい接続状態が続きました。」
この障害は、センチュリーリンクのネットワークにサービスの一部を依存していた地方自治体や通信事業者にも大きな打撃を与えました。イリノイ州、カンザス州、ミネソタ州、ミズーリ州の州政府は、センチュリーリンクのせいで約36時間にわたりネットワークの一部がダウンしました。また、コムキャスト、ベライゾン、テレコミュニケーション・システムズ、ゼネラル・ダイナミクスIT、ウェスト・セーフティ・サービスが販売する電話サービス(911コールセンターを含む)も、障害発生期間中、一部または全期間にわたって接続が中断されました。
同様の障害を防ぐために何ができるかについて、FCC は CenturyLink や他のバックボーン プロバイダーに、ネットワーク機器の使用されていない機能を無効にしたり、メモリやプロセッサの使用がピークに達したときに管理者に警告するアラームをインストールして維持したり、ネットワーク機器がアクセス不能になった場合に備えてバックアップ手順を用意したりするなどの基本的な手順を実行することを推奨しています。
「現在、CenturyLinkは、将来的に不正なパケットが送信される可能性を低減するため、ノードのイーサネットポリサーを更新中です」と報告書は指摘している。「改良されたイーサネットポリサーは、不正なパケットを迅速に識別して終了させ、ネットワークへの伝播を防止します。この作業は2019年秋に完了する予定です。」
報告書では、CenturyLink に対する罰金や罰則の可能性については触れられていない。®