AWS事後検証:社内運用チームの監視ツールがダウンし、ログを精査する必要があった

Table of Contents

AWS事後検証:社内運用チームの監視ツールがダウンし、ログを精査する必要があった

アマゾンは先週発生した米国東部1拠点の障害に関する追加情報を公開し、ウェブ大手の自社監視ツールが攻撃を受けた際にスタッフがログファイルを調べなければならなかったことが明らかになった。

Amazonは社内システムに関する技術的な詳細をあまり明らかにしたくないようだ。それもある程度は理解できる。おそらく、一部の専門家は恐怖を覚え、他の一部の専門家は将来の攻撃のヒントを求めて情報収集するだろうが、それ以外の人々は理解も関心も示さないだろう。いずれにせよ、既存顧客や潜在顧客の一部は敬遠するかもしれない。

壊れた雲

AWSが米国東部地域で不安定になり、広範囲に及ぶ障害が発生

続きを読む

AWSには社内ネットワークがあり、そこには不特定の社内サービスがホストされています。これらのサービスは、不特定の社内AWSリソースの作成と管理に利用されています。その他の社内サービスは、メインのAWSネットワーク上でホストされています。Amazonはこの社内ネットワークについて多くを公表していませんが、外部とのリンクが複数あり、このクラウドの巨人は高可用性を確保するために「このネットワークの容量を大幅に拡張」しています。そして、このプロセスが失敗に終わったのです。

何らかの自動スケーリングツールが、メインの AWS ネットワーク上で実行される内部サービスの 1 つをスケーリングするために起動しましたが、それが失敗し、「接続アクティビティの大きな急増」を引き起こしました。

要するに、この脆弱性は社内ネットワークを混乱させ、社内DNSとAmazonの社内監視ツールの速度を低下させ、完全に機能しなくなりました。気の毒なオペレーターたちは、問題の原因究明にログファイルに頼らざるを得ませんでした。これは、多忙なシステム管理者にとっては恐ろしくも20世紀的な状況ですが、少なくともAmazonの倉庫作業員よりも数世紀は先を行っていると言えるでしょう。

レポートではDNSを全面的に非難することは避けていますが、内部DNSを別のネットワークに移動するのに約2時間かかったことで、管理者は問題の原因を突き止めるのに十分な時間を確保できたようですまた、AWS自体ではなく、AWS内部管理ネットワークのみが過負荷状態になり機能不全に陥っていたことも指摘されています。

先週お伝えしたように、us-east-1AWSの21のリージョンの中で最初で最も古いリージョンです。その影響で、AWSのグローバルコンソールのランディングページがホストされています。あるReg読者は、「AWSコンソールに問題が発生しています…これは私の意見では大きな欠陥です。us-east-1ダウンするとコンソールのランディングページが消えてしまいます。」と指摘しました。

顧客のワークロードを世界中に分散させているサービスが、自社のコアサービスの一部では同様の対策を講じていないというのは、皮肉なことです。同社は障害報告書の中で、「同様の輻輳が発生した場合でも、影響を受ける可能性のあるネットワークデバイスを保護するための追加ネットワーク構成を導入しました。これらの対策により、この問題が再発することはないと確信しています」と述べています。

この問題により、巨大企業のサービスヘルスダッシュボードやサポートコンタクトセンターもダウンし、顧客向けに運営している Amazon Connect サービスにも支障が出ました。

これは、セキュリティ担当者 Brian Krebs 氏のブログで最近述べられているように、「インターネットはスピット&ベーリングワイヤーで結びついている」ということを思い出させるものです。®

Discover More