マイクロソフトは、一連の連鎖的なトラブルにより北欧のAzure顧客の一部が7時間近くサービスにアクセスできなくなった経緯を説明した。
9月29日、UTC13:27から20:15の間に主要システムがダウンした後、レドモンドの欧州顧客からは「サクレ・ブルー!」「シェイス!」「一体何をしているんだ?」という声が聞こえたと推測されます。Virtual Machines、Cloud Services、Azure Backup、App ServicesとWeb Apps、Azure Cache、Azure Monitor、Azure Functions、Time Series Insights、Stream Analytics、HDInsight、Data FactoryとAzure Scheduler、そしてAzure Site Recoveryはすべてダウンしました。
問題は、マイクロソフトのデータセンターの一つで消火システムの定期メンテナンスが行われていた際、作業員が誤って消火システムを作動させたことに端を発しました。これにより消火ガスが放出され、酸素が炎に供給されないように空調が停止しました。これは、火災が配管を通じて延焼するリスクを軽減するためでした。しかし、この冷却不足により、電源が投入されていた近隣のマシンが故障し、「ストレージスケールユニット」がダウンしました。
Azureチームは、「定期的な消火システムメンテナンス中に、不活性消火剤が予期せず放出されました。消火活動が開始されると、封じ込めと安全確保のために設計された通り、空調ユニット(AHU)の自動停止が開始されました」と報告しました。
遅いバッチから高速ファイルまで、マイクロソフトがAzureに人々を誘致する方法
続きを読む
データセンター内の状況が再確認され、空調設備が再起動されている間、影響を受けた抑制区域内の隔離されたエリアの周囲温度が通常の動作パラメータを超えました。影響を受けた区域内の一部のシステムは、システムの過熱を防ぐために、内部の熱監視機能によって自動シャットダウンまたは再起動を実行しました。
マイクロソフトは、空調設備は35分以内に復旧し、気温もすぐに正常に戻ったと述べた。しかし、過熱したサーバーやストレージシステムの一部は「制御された方法でシャットダウンされなかった」ため、オンライン状態に戻るまでに時間を要した。
その結果、データ破損を防ぐために仮想マシンは稼働状態を維持し、停止されました。Azure Backup コンテナーは利用できなくなり、バックアップと復元の操作に失敗しました。Azure Site Recovery はフェイルオーバー機能を失い、HDInsight、Azure Scheduler、Functions はストレージシステムがオフラインになったためジョブを中断しました。
Azure Monitor と Data Factory ではパイプラインで重大な遅延とエラーが発生し、Azure Stream Analytics ジョブでは入力の処理と出力の生成が (わずか数分間ではありますが) 停止し、Azure Media Services ではストリーミング要求、アップロード、エンコードで障害と遅延の問題が発生しました。
火災鎮圧システムのメンテナンス作業はすべて、事故原因の調査中は一時停止されており、何が起きたのかについての詳細な報告がまもなく発表される予定だ。
Azure チームは、爽快なほど率直なインシデント報告の中で、「影響を受けたお客様への影響について心からお詫び申し上げます」と述べています。
当社は、今後このようなインシデントが発生しないよう、Microsoft Azure プラットフォームとプロセスの改善に継続的に取り組んでいます。今回のケースでは、これには(ただしこれに限定されませんが)以下の取り組みが含まれます。施設エンジニアと協力して、抑制システムの保守分析を継続し、予期せぬエージェント放出の原因を特定し、再発リスクを軽減します。
エンジニアリングチームは、このシナリオにおけるストレージリソースの障害状況と復旧時間の改善について調査を継続しています。重要な調査と分析が進行中であるため、このRCAの追加アップデートは金曜日(10月13日)までに提供される予定です。®