Amazon Web Services(AWS)は本日、再びITシステムの一部に障害が発生し、皆様を不安にさせました。これにより、Webサービスの一部が一時的にダウンしました。もし今日、お気に入りのウェブサイトやアプリが一時的に使えなくなったと感じた方は、これが原因かもしれません。
今月初めに見られたAWSの全面的な障害が再び発生しそうで、多くの人がその懸念を抱きました。同社はついに、太平洋標準時7時48分(協定世界時15時48分)にステータスページで、US-West-2リージョンで接続障害が発生していること、そして太平洋標準時7時52分(協定世界時15時52分)にUS-West-1リージョンでも同様の障害が発生していることを発表しました。
10分後、同社は各地域への接続が途絶えた根本原因を突き止め、いくつかの修正を行い、ある程度の回復が見られていると発表した。そして、太平洋標準時午前8時10分(協定世界時午後16時10分)に、次のように発表した。
4分後、US-West-2でも同様の障害が発生しました。合計で約30分間の障害が発生しました。上記の説明から、当該地域と世界各地との接続に影響があったものの、地域内のネットワークは正常であったことが示唆されます。
正確な原因は明らかにされていません。もしかしたら、技術者が不注意でケーブルにつまずいてしまったのかもしれませんし、どこかのバックボーンISPに問題があったのかもしれませんし、あるいはDNSが原因だったのかもしれません。結局のところ、DNSはいつだって問題なのですから。
ダウンタイムの影響は、今月初めの米国東部1リージョンの障害とほぼ同じようにインターネット全体に波及しました。Amazonがホストするウェブサイトやアプリが期待通りに動作しなくなったことに気づいた人がいます。AWSは本日の事象に関する問い合わせにすぐには回答しませんでした。
後世のために撮影しました…本日のAWSステータスページ。クリックして拡大
このウェブ大手のステータス ページは、(a) ネットユーザーが自社のサービスに何が起きたのかを知ろうと殺到したか、(b) AWS の状況が悪化したかのどちらかで、次第に反応しなくなっていった。
- AWS事後検証:社内運用チームの監視ツールがダウンし、ログを精査する必要があった
- Log4j RCE 最新情報: 気づいていないかもしれませんが、これは非常に深刻で、実際に悪用されており、緊急のパッチ適用が必要です。
- AWSが米国東部地域で不安定になり、広範囲に及ぶ障害が発生
- AWSの大規模イベント:120件の発表があったが、何も変わっていない
Amazon のこの件に関する最新のセキュリティ情報から判断すると、このクラウドの巨人にとっては厳しいタイミングだ。同社は過去 1 週間、Apache Log4j のリモートコード実行の脆弱性 (CVE-2021-44228) の影響を受けるコンポーネントのパッチ適用に懸命に取り組んできた。
AWS がたとえ短期間であっても、ダウンしたことは、今日のアプリ、Web サイト、サービスが AWS のような単一のプラットフォームにいかに依存しているかを思い起こさせるものです。
Amazon傘下の動画ストリーミングサービスTwitchも、AWSの接続障害発生時にダウンしました。障害発生サイトDowndetectorをざっと見てみると、Zoom、Salesforce、Facebook、Slackなど、AWS以外でホストされているものも含め、様々な有名サービスがAmazonと同時に障害を経験していました。これは、何らかの根本的なインフラ問題があった可能性を示唆しています。
しかし、Twitterはほぼ持ちこたえているようだ。ありがたいことだ。®
Amazonでひどいオンコールシフトに就いている人がいます。オンコールの神様の加護がありますように。#awsdown #aws pic.twitter.com/nxa5JB3TH7
— セバスチャン(@ebud7)2021年12月15日
追加情報: 更新しました:
Amazonは次のように連絡を取りました。「太平洋標準時7時14分から7時59分の間、ネットワークパケットロスが増加し、一部のインターネット接続先への接続に影響が出ました。AWSリージョン内、AWSリージョン間、およびインターネット上の他の接続先へのトラフィックには影響はありませんでした。この問題は、AWSバックボーンの一部と一部のインターネットサービスプロバイダー間のネットワーク輻輳が原因で発生しました。これは、AWSネットワーク外部の輻輳に対応して実行されたAWSトラフィックエンジニアリングによって引き起こされました。」
このトラフィックエンジニアリングにより、AWSバックボーンの一部に予想以上に多くのトラフィックが誤って移動され、一部のインターネット接続先への接続に影響が出ました。この問題は解決されており、再発は予想されていません。