AWSのS3の障害はひどく、Amazonは自社のダッシュボードにアクセスできず、世界に警告できなかった。

Table of Contents

AWSのS3の障害はひどく、Amazonは自社のダッシュボードにアクセスできず、世界に警告できなかった。

火曜日の Amazon Web Services の大規模障害により、バックエンドのストレージが奪われて大規模および小規模の Web サイトがオフラインになっただけでなく、この技術に依存するアプリや IoT ガジェットも機能停止に陥った。

実際、5時間に及ぶ障害は非常に深刻で、Amazon は自社の AWS ステータスダッシュボードを更新することさえできなかった。赤い警告アイコンはクラウドの障害側でホストされたまま、取り残された状態だった。

実質的には、米国バージニア州北部のUS-East-1リージョンにあるS3バケットが、太平洋標準時午前9時45分(UTC午後17時45分)頃にアクセス不能となりました。このクラウドベースのストレージに依存していたソフトウェア(ウェブアプリからスマートフォンアプリまで)は瞬く間に機能停止に陥り、インターネットの相当な部分が利用不能となりました。

AWSには多くのリージョンがあり、US-East-1はその一つに過ぎません。開発者はアプリケーションを複数のデータセンターに分散させることで、一つのリージョンがダウンしてもプラットフォーム全体がダウンすることはありません。しかし、プログラマーにとって分散コンピューティングは難しいという理由から、コストがかかることまで、様々な理由から、この冗長性は必ずしもコードに組み込まれているわけではありません。そして、今の状況はこうなっています。

火曜日正午のAWSステータスボードのショット

太平洋時間の火曜日正午に起きた惨劇。AWS ダッシュボードにログイン後に顧客が目にする光景だ
(クリックして拡大)

これは、S3 のダウンタイムにより本日機能しなくなったり不安定になったりしたものの完全なリストではありませんが、まずは次のようなものを挙げておきます: Docker の Registry Hub、Trello、Travis CI、GitHub および GitLab、Quora、Medium、Signal、Slack、Imgur、Twitch.tv、Razer、S3 に画像やその他のメディアを保存していた多数の出版物、Adobe のクラウド、Zendesk、Heroku、Coursera、Bitbucket、Autodesk のクラウド、Twilio、Mailchimp、Citrix、Expedia、Flipboard、そして Yahoo!メール(おそらく使用すべきではないでしょう)。また、Zoom.us と一部の Salesforce.com サービス、Xero、SiriusXM、Strava にも問題が発生しているとの読者からの報告もあります。別の読者からは、Hey You アプリが壊れていたためコーヒーを注文できなかったという報告もあります。

障害が発生したAWSリージョンでは、EC2インスタンスの新規起動も一時不可能になったと報告されています。データセンターで障害が発生した他のAWSサービスには、Elastic File System、Elastic Load Balancing、Simple Email Service、Relational Database Service、Lambda、Elastic MapReduce、Elastic Beanstalkなどがあります。

障害の影響を受けたのはウェブサイトやホスティングサービスだけではありません。多くのIoT製品もS3バケットに依存しており、ダウンタイムによって混乱が生じました。

Nestは、AWSの不具合の影響で、インターネットに接続されたセキュリティカメラとスマートフォンアプリが正常に機能しておらず、数時間にわたってビデオ映像を録画していないと顧客に対して警告した。

Nest アプリとカメラに問題が発生しており、現在調査中です。詳細が分かり次第、こちらでお知らせいたします。

— Nest Support (@nestsupport) 2017年2月28日

@sjespers Amazon の S3 の停止が当社のサービスに影響を与えている可能性があると考えており、現在も調査中です。

— Nest Support (@nestsupport) 2017年2月28日

他のIoTデバイスも影響を受け、所有者にとってかなり非現実的な状況を引き起こしました。クラウド接続された電球やサーモスタットなどの機器は、バックエンドのダウンにより正常に動作しなくなったと報告されています。

@razer @razersynapse サーバーがダウンしているため、マウスの感度を変更できません 🙄 cc @internetofshit

— Callum Mellor-Reed (@callummr) 2017年2月28日

@internetofshit の喜び - AWS がダウン。テレビのリモコン、照明コントローラー、玄関の門までもがダウン。2017年は最高だ。

— ブライアン(@Hamster_Brian)2017年2月28日

皮肉なことに、この問題の影響で、障害監視サイトDownDetectorとisitdownrightnow.comもオフラインになりました。これは、お気に入りのサイトやアプリがなぜ機能しないのかと疑問に思ったネットユーザーからの圧倒的な関心が原因だったのかもしれません。

本日の惨事からもわかるように、US-East-1リージョンはAWSにとって最も人気のあるリージョンの一つです。このリージョンの障害は非常に深刻で、Amazonは自社のオンライン公開ダッシュボードを更新してユーザーに障害を警告することができませんでした。障害を警告する赤いアイコンがダウンしたシステムでホストされていたため、アイコンが緑色のランプで停止したままになっていたようです。

ダッシュボードの色が変化しないのは、S3 の問題によるものです。最新情報については、ダッシュボード上部のバナーをご覧ください。

— Amazon Web Services (@awscloud) 2017年2月28日

Amazonは太平洋標準時正午までにダッシュボードの制御を取り戻し、進行中のダウンタイムを反映するように更新しました。太平洋標準時13:00には、ダッシュボードは「S3オブジェクトの取得、リスト表示、削除は回復しています」と発表しました。太平洋標準時13:30には、AWSは「S3オブジェクトの取得、リスト表示、削除は完全に回復しました」と付け加えました。

最終的に、最初のエラー報告が出てからおよそ5時間後の太平洋標準時14時頃、Amazonはサービスがほぼ完全に機能する状態に戻ったと報告しました。Lambaなど一部のサービスは、本稿執筆時点ではまだ稼働していませんでした。AWSチームによると、復旧までのタイムラインは以下の通りです。

[解決済み] Amazon S3 のエラー率の増加

午後2時8分(太平洋標準時)更新:午後1時49分(太平洋標準時)現在、S3への新規オブジェクト追加操作は完全に復旧しました。この操作は、高いエラー率を示していた最後の操作です。Amazon S3サービスは正常に動作しています。

午後1時12分(太平洋標準時)更新:S3オブジェクトの取得、一覧表示、削除は完全に復旧しました。S3への新規オブジェクトの追加に関する通常の操作の復旧に向けて、引き続き作業を進めています。

午後12時52分(太平洋標準時)更新:S3オブジェクトの取得、一覧表示、削除の復旧を確認しています。S3への新規オブジェクトの追加に関する復旧作業を継続しており、1時間以内にエラー率の改善が見られると予想しています。

午前11時35分(太平洋標準時)更新:サービスヘルスダッシュボードの更新機能が復旧しました。サービスの更新内容は以下の通りです。US-EAST-1のS3では引き続き高いエラー率が発生しており、AWSの様々なサービスに影響が出ています。現在、S3の復旧に全力で取り組んでおり、根本原因の特定に成功したと考えています。また、問題解決につながると思われる対策の実装に取り​​組んでいます。

午前10時33分(太平洋標準時)更新:US-EAST-1におけるAmazon S3の可用性問題の修正に引き続き取り組んでいます。Amazon S3のエラー修正に積極的に取り組んでいるため、S3に依存するAWSサービスおよびお客様のアプリケーションでは引き続き高いエラー率が発生します。

AWSは、問題の正確な内容についてはまだ発表していません。現在、原因究明に努めております。何か情報をお持ちでしたら、メールでご連絡ください。®

Discover More