火曜日のAWS S3-izureはAmazon規模のインターネットボトルネックを露呈した

Table of Contents

火曜日のAWS S3-izureはAmazon規模のインターネットボトルネックを露呈した

分析: AmazonのS3障害は、AzureとGoogle、オンプレミスIT、ハイブリッドクラウドの支持者、そしてマルチクラウドゲートウェイにとって大きな恩恵となりました。しかし同時に、Amazonの法人顧客による事業継続と災害復旧対策の不十分さも露呈しました。

誰もがジェフ・ベゾスを非難し、「AWSはユーザーを失望させた」と言うでしょう。そして今、私たちはユーザーがAWSに全面的に依存すべきではないことの重要性を痛感しています。代替クラウド、あるいはハイブリッドクラウド戦略を持つべきです。何百人ものマーケティング担当者が、現在、この流れに沿って障害後の対応策を練っています。

S3(Simple Storage Service)は、Amazonのパブリッククラウドにおけるオブジェクトストレージサービスです。S3の障害は昨日2月28日午前9時44分(太平洋標準時)に発生し、高いエラー率が原因でストレージバケットへのアクセスに問題が発生しました。対象地域は、非常に人気の高いデータセンターである米国東部1リージョン(ノースバージニア)です。多くのユーザーがデータにアクセスできなくなり、5時間にわたるサービス停止が発生しました。Nestのビデオカメラやスマートフォンアプリにも影響が出ました。

多くの S3 アプリ開発者にとって、このような障害に備えて冗長性を確保するために 2 つのリージョンにデータを保持することは、高価な手段でありながら実行しなかったため、非常に残念でした。

S3 だけでなく、AWS のインフラストラクチャの北バージニア部分では、Amazon Appstream 2.0、Athena、CloudSearch、Cognito、ECR (Docker コンテナ レジストリ)、EMR、Amazon Elastic Transcoder、Elasticsearch Service、Glacier、Inspector、Kinesis Firehose、Lightsail、Mobile Analytics、PinPoint、Redshift、Simple Email Service、SWF、WorkDocs、WorkMail、Auto Scaling、AWS Batch、CloudFormation、CodeBuild、CodeCommit、CodeDeploy、Data Pipeline、Elastic Breanstalk、Key Management、Lambda、OpsWork Stacks、Storage Gateway にも問題がありました。

大部分は解決済みですが、一部はまだ問題が残っています。状況は非常に複雑で、本日閲覧したEC2(バージニア北部)- US-East-1のAWS EC2ステータス履歴ポップアップには、その一部が示されています。

AWS 停止ダッシュボードポップアップ

AWS からのノースバージニアの EC2 ステータス履歴ポップアップ。

Amazon は、この一連の大きな事件がどのように、そしてなぜ起こったのかを説明していない。

AWSステータス

AWS ステータス更新

テクノロジー大手は何をすべきでしょうか?

Amazonにとって、米国東部1リージョンをオハイオ州のセカンダリーリージョンである米国東部2リージョンを超えて、さらに小規模な障害ドメインに分割する必要があることは明らかです。また、米国東部1リージョンや他のリージョンのデータベース障害にも耐えられるよう、オンラインパブリックダッシュボードインフラストラクチャを分離する必要もあります。

代替サプライヤーにとって、これは明らかにマーケティング上の贈り物です。EgnyteのCEO兼共同創設者であるVineet Jain氏は、質問攻めのハッカーに向けて、即座にコメントを発表しました。

インターネットとクラウドは完璧ではありません。多くの人がサービス停止の影響を受けにくくなってきていると考えがちですが、それは依然として避けられない事実であり、軽視することはできません。今日のAmazonがその証拠です。取引が停止した中小企業であれ、国際的な事業展開に支障をきたした大企業であれ、クラウドだけに頼りきりではビジネスに大きなダメージを与える可能性があります。

今回の障害はAWSの甚大な影響を露呈するとともに、AWSのソリューションにハイブリッド要素が不可欠であることをも示しました。ハイブリッドは、クラウドでビジネスを展開する企業にとって、ダウンタイム、金銭的損失、そして今回のような障害によって引き起こされるその他の多くの問題から企業を守る、最も現実的なアプローチであり続けています。

パブリッククラウドは一般的に問題ないわけではありません。IT運用を単一のパブリッククラウドプロバイダーのデータセンターに委ねることは、そのプロバイダーがいかに大規模であっても、リスクが高いことが実証されています。重要なのは、ケチにならないことです。データセンターの二重化にかかる追加コストは、自社と顧客の安心のために支払うべきです。

結局のところ、今回の障害の影響を受けたすべてのサプライヤーは、事業継続計画と災害復旧計画が不十分だったと言えるでしょう。そうです、サプライヤーの皆様、Amazonはあなたを失望させましたが、同時にあなた自身の顧客も失望させたのです。®

Discover More