アメリカのレイバーデーの週末に停電が発生し、アマゾン ウェブ サービスのデータセンターの 1 つでハードウェアが焼損し、一部の顧客データが失われた。
停電し、その後バックアップ発電機が故障したため、一部の仮想サーバーインスタンスが消失し、クラウドでホストされたボリュームの一部が破壊され、可能な場合はバックアップから復元する必要があったと伝えられています。
本日、レジスターの読者から、土曜日の朝に Amazon のクラウド事業が US-East-1 リージョン内で障害を起こし始めたという情報が寄せられました。
情報提供者によると、Amazon のクラウドホスト Elastic Block Store (EBS) に 1TB を超えるデータがあったが、障害発生時にそのデータが消失したという。情報提供者には、「EBS ボリュームに関連する基盤ハードウェアに障害が発生し、ボリュームに関連付けられたデータは回復できません」と伝えられた。
匿名を条件に提供いただいた読者の方は、約8時間前に作成されたEBSスナップショットから手動でデータを復元することができました。このバックアップがなければ、失われた情報を一切回復できなかったかもしれません。Amazonのエンジニアはダウンしたシステムの大部分を復旧させることができましたが、すべてのストレージボリュームが深刻なクラッシュを免れたわけではありませんでした。
Facebookは14時間にわたる障害の原因を「サーバー設定の変更」としている。誰か、この件を万能の嘘つき翻訳機で翻訳してみてくれ
続きを読む
停電したストレージシステムにデータを保存していた不運な顧客は、AWS スタッフから、失われたビットやバイトを復元しようと試みたものの、一部の 1 と 0 が永久に暗号化されてしまったと伝えられました。「少数のボリュームは、停電の影響を受けたハードウェア上でホストされていました。しかし、停電による被害のため、これらのボリュームの基盤となる EBS サーバーは復旧していません。」
「これらのボリュームの回復をさらに試みましたが、回復不可能であると判断されました。」
一方、顧客で技術コンサルタントのアンディ・ハント氏は、停電でデータが破壊されたとツイッターで不満を述べただけでなく、その原因が加入者に迅速に伝えられなかったと主張した。「AWSで停電が発生し、バックアップ発電機が故障したためEBSサーバーがダウンし、当社のデータがすべて失われました。その後、原因を突き止めて通知するまでに4日もかかりました。」
「注意: クラウドは、レストンにある電源の悪いコンピューターにすぎません。」
AWSの広報担当者はコメントに応じなかった。
「障害」
ダウンタイムに関する詳細の一部は、AWS のステータス ページに、埋もれながらも公開されていたが、El Reg は、この失態を説明するより詳細な一連の通知が顧客に送られていることを確認した。
AWSは、同日午前11時(PDT)直前、午前4時30分(PDT)頃、「米国東部1リージョンの6つのアベイラビリティゾーンの1つにある10のデータセンターのうち1つで公共電力に障害が発生した。バックアップ発電機はすぐにオンラインになったが、原因は現在調査中であり、午前6時(PDT)頃から急速に機能しなくなった」と報告した。
「この結果、太平洋夏時間午前6時10分までに、当該アベイラビリティゾーンの全インスタンスの7.5%に障害が発生しました」と同社は続けた。「過去数時間でほとんどのインスタンスを復旧しましたが、当該アベイラビリティゾーンのインスタンスの1.5%はまだ復旧が残っています。EBSにも同様の影響があり、EBS内のボリュームの復旧作業を継続しています。このゾーンでの新規インスタンスの起動は引き続き問題なく動作しています。」
およそ 2 時間後の 13:30 PDT に、クラウド ゴリアテはメモを次のように明確化し、拡張しました。
つまり、Amazon によれば、実際には、米国西海岸時間の土曜日の早朝に AWS データセンターで停電が発生し、その 1 時間半後にバックアップ ジェネレータが故障し、そのアベイラビリティ ゾーン内の EC2 仮想マシンと EBS ボリュームの 10 台のうち 1 台がダウンしたことになります。
数時間後、影響を受けたシステムの 99.5 パーセントが回復しましたが、まだ「障害」が残っているシステムの中には回復不能なものもあり、加入者はバックアップを保存していたとしても、それを取り出さざるを得ませんでした。®