マイクロソフトは、Azure Active Directory がダウンしたのは、Safe Deployment Process システムの「潜在的な欠陥」によるバグであると発表しました。

Table of Contents

マイクロソフトは、Azure Active Directory がダウンしたのは、Safe Deployment Process システムの「潜在的な欠陥」によるバグであると発表しました。

マイクロソフトは、Azure Active Directory に依存するアプリケーションを使用している顧客に影響を与えた月曜日と火曜日のサービス中断の原因をソフトウェアのバグにあるとしている。

2020年9月28日21時25分(UTC)(14時25分PDT)から2020年9月29日0時23分(UTC)(17時23分PDT)までの約3時間、マイクロソフトのクラウドベースの認証システムであるAzure Active Directory(AD)と、企業向けのホワイトラベル認証サービスであるAzure AD B2Cで障害が発生しました。

認証エラーは一部のケースでは 0225 UTC (1925 PDT) まで続き、顧客は複数の Microsoft 365 サービスと一部の Azure サービスにログインできなくなりました。

当時、Azureのサービス中断中に米国の911緊急通報システムに同時発生した問題は、Azure AD認証への依存が原因だと示唆されていました。しかし、Microsoftはそうではないと主張しています。「複数州に及ぶ911のサービス停止が月曜日のサービス中断によるものであるという兆候は見られません」と、IT大手のMicrosoft広報担当者はThe Registerへのメールで述べています。

とはいえ、この障害は世界中に影響を与えましたが、特にアメリカではより深刻でした。マイクロソフトのインシデントレポートSM79-F88によると、サービス中断中にアメリカで認証試行が成功したのはわずか17%でしたが、復旧直前には37%にまで上昇しました。

オーストラリアでは成功率が37%とやや良好でした。アジアでは、インシデント発生後最初の2時間は認証成功率が72%前後で推移しましたが、営業日が始まってログイン試行が増えるにつれて32%に低下しました。一方、ヨーロッパではサービス障害発生中も81%の成功率を維持しました。

コンピューターから流出したメールが発見される

今どこにいる?Microsoft 363?362?今朝はExchange Onlineがうまく動作しなかったため、数え切れないほどだ

続きを読む

Windows biz は、仮想マシン、仮想マシン スケール セット、Azure Kubernetes サービス向けのマネージド ID サービスに実装された防御により、これらのツールの可用性を 99.8% に維持できたと報告しています。

マイクロソフトによれば、この混乱は、Azure AD の安全な展開プロセスのバグによって安全性が損なわれたために発生した。つまり、安全対策によってクラッシュを誘発する更新が本番環境にプッシュされ、通常の検証プロセスが回避され、最終的に AD が機能しなくなったのである。

このアップデートは、テスト・検証環境からパブリックAzureクラウドまで、5つのリングに数日かけて段階的に展開される予定でした。問題のあるアップデートは検証段階で発見されるだろうと予想されていました。しかし、セーフ・デプロイメント・プロセスに「潜在的な欠陥」(レドモンドの用語で言えばバグ)があり、システムのデプロイメント・メタデータの読み取り能力に問題があったことが判明しました。その結果、すべてのデプロイメント・リングに不安定なアップデートが一斉に配信され、サービスが低下し始めました。

「Azure ADは、世界中の複数のデータセンターにまたがる複数のパーティションと分離境界を備えたアクティブ/アクティブ構成で展開される、地理的に分散されたサービスとして設計されています」とインシデントレポートには記されています。「通常、変更は最初に顧客データを含まない検証リングを対象とし、次にMicrosoftユーザーのみを含む内部リングを対象とし、最後に本番環境を対象とします。」

コード欠陥の性質に関する詳細情報の提供要求は拒否されました。

私たちはMicrosoft Azureプラットフォームの改善に継続的に取り組んでいます

Microsoftは、インシデント発生から数分以内に自動ロールバックを使用して変更を元に戻し、これにより問題は軽減されたはずだと述べています。しかし、Safe Deployment Processシステムのバグにより「デプロイメントメタデータが破損」したため、ロールバックは手動で行う必要がありました。

Windows 業界は、欠陥のあるコードを既に修正し、ロールバックシステムに機能するメタデータを戻し、ロールバック操作の訓練を拡充したと述べています。また、発生した問題に対する追加の防御策を導入することで、Safe Deployment System の安全性をさらに高め、Azure AD バックアップ認証システムの導入を加速させる計画も発表しています。

さらに、停電情報を15分以内に顧客に届けられるよう自動化された通信パイプラインを整備し、顧客が停電情報を知らない時間を短縮する計画もある。

同社はインシデント報告書の中で、「影響を受けたお客様には多大なご迷惑をおかけしましたことを心よりお詫び申し上げます。今後このようなインシデントが発生しないよう、Microsoft Azure プラットフォームとプロセスの改善に継続的に取り組んでまいります」と述べています。

Discover More