マイクロソフトが、Azure、Office 362.5の多要素認証ログインを14時間停止させた3つの重大なバグを公開

Table of Contents

マイクロソフトが、Azure、Office 362.5の多要素認証ログインを14時間停止させた3つの重大なバグを公開

マイクロソフトは、先週14時間にわたって同社のクラウド サービスにログインできなかった不運なユーザーを招いた障害の詳細を記した事後調査レポートを提出した。

レドモンドは今週月曜日、3つの個別の失敗が重なって連鎖的な混乱を引き起こし、11月19日月曜日のほとんどの時間、AzureおよびOffice 363のユーザーが多要素認証でサインインできなかったと発表した。

「3つの独立した根本原因が発見されました」とマイクロソフトは説明した。「さらに、MFAサービスのテレメトリと監視に欠陥があったため、これらの根本原因の特定と理解が遅れ、対策に長期間の時間がかかりました。」

これら3つの不具合はすべて、Azure Active Directory Multi-Factor Authenticationという単一のシステム内で発生しました。Microsoftは、Azure、Office 364、Dynamicsサービスの多要素ログイン処理にこのサービスを使用しています。

マイクロソフトによると、最初の問題は、月曜日の朝に多数のユーザーがログインを試みたことで、MFAフロントエンドとキャッシュ間の遅延が望ましくないほど高くなったことだった。遅延は極めて重要だ。MFAログインコードは有効期間が短く、通常は30秒または60秒であるため、コードが使用できなくなる前に期限切れになると、ユーザーは再度ログインを試みることになり、システムにさらなる負荷がかかる。

そこから、MFAを処理するフロントエンドサーバーとバックエンドサーバーの間で競合状態が発生しました。最終的に、最初の2つの問題が積み重なり、バックエンドサーバーがデータリクエストのバックログを処理する方法に3つ目のバグが露呈しました。

レドモンドが透明性と率直さを保っているのは喜ばしいことです。一方で、14時間もログインできない有料会員は、Windowsの巨人である同社が最低限の対応をすべきだと感じるかもしれません。ウェブサイトから削除された場合に備えて、マイクロソフトの説明全文を以下に示します。

3つの独立した根本原因が発見されました。さらに、MFAサービスのテレメトリと監視におけるギャップにより、これらの根本原因の特定と理解が遅れ、緩和策の実施に時間がかかりました。最初の2つの根本原因は、MFAフロントエンドサーバーの問題として特定されました。これらの問題はいずれも、2018年11月13日(火)に一部のデータセンター(DC)で開始され、2018年11月16日(金)までにすべてのDCで完了したコード更新のロールアウトで発生しました。その後、これらの問題は、特定のトラフィックしきい値を超えた時点で発生することが判明しました。このしきい値は、Azure西ヨーロッパ(EU)DCで月曜日早朝(UTC)に初めて発生しました。西EU DCにおける朝のピークトラフィック特性が、このバグを引き起こすしきい値を最初に超えました。3つ目の根本原因はこのロールアウトでは発生せず、この事象の調査の一環として発見されました。1. 最初の根本原因は、MFAフロントエンドからキャッシュサービスへの通信における遅延の問題として現れました。この問題は、特定のトラフィックしきい値に達した高負荷時に発生しました。 MFA サービスがこの最初の問題に遭遇すると、2 番目の根本原因を引き起こす可能性が高まりました。2. 2 番目の根本原因は、MFA バックエンド サーバーからの応答処理における競合状態です。これにより、MFA フロントエンド サーバーのプロセスが繰り返し実行され、遅延が発生する可能性があります。また、MFA バックエンドでは 3 番目の根本原因(下記)が発生します。3. 特定された 3 番目の根本原因は、2 番目の根本原因によって引き起こされた、これまで検出されていなかったバックエンド MFA サーバーの問題です。この問題により、MFA バックエンドでプロセスが蓄積され、バックエンドのリソースが枯渇します。その時点で、MFA フロントエンドからのリクエストを処理できなくなりますが、それ以外の状況は監視では正常と表示されます。

ITクラウドのロイ:電話で

マイクロソフトはAzureの電源をオフにしてオンにすることで修復できたことを確認しました。追記:Office 362はまだ動作しません

続きを読む

その結果、マイクロソフトの多要素認証サーバーは、管理者にはすべて問題ないと報告されていたにもかかわらず、ダウンし続けました。一連のトラブルはまずEMEA(欧州・中東・アフリカ)とAPAC(アジア太平洋地域)の顧客に影響を及ぼし、その後日が進むにつれて米国の加入者にも影響が及びました。マイクロソフトは最終的に、緩和策を適用した上でサーバーの電源を切断し、再起動することで問題を解決しました。

サービスは健全であるように見えたため、実際に 3 つのバグを特定して軽減するには時間がかかりました。

「サービスに影響を及ぼすさまざまなイベントが重複しており、個別の問題として現れなかったため、これらの問題の初期診断は困難でした」とマイクロソフトは説明した。

「バックエンドサーバーの問題を特定するテレメトリのギャップにより、この問題はさらに深刻化しました。」

マイクロソフトは現在、アップデートとテストの実施方法、社内監視サービス、そして障害発生時の対応方法を見直すことで、この大失敗の再発防止に取り組んでいるとしている。®

Discover More