多くのクラウドサービスがAzure Active Directoryに依存しているため、MicrosoftにとってAzure Active Directoryは単一障害点となっている。

Table of Contents

多くのクラウドサービスがAzure Active Directoryに依存しているため、MicrosoftにとってAzure Active Directoryは単一障害点となっている。

コメントマイクロソフトは、以前の Azure Active Directory の停止に対する修復の不備が原因で、ユーザーがサインインできないという OneDrive および SharePoint サービスの問題を修正しました。

「複数のMicrosoft 365サービスへのアクセスに影響を与える問題を調査中です。影響の全容を特定すべく取り組んでいます」と、昨夜午後10時45分頃、Microsoft 365のステータスツイートで述べられました。これは、Microsoft 365と一部のAzureサービスを含む、同社のクラウドサービス全体で発生した大規模な障害を指しており、その発生から約20分前に発生しました。この障害は数時間続き、本日午前3時20分頃にMicrosoftは「ほとんどのユーザーにとって、大半のサービスが復旧した」と発表しました。

影響を受けたコアサービスはAzure Active Directoryで、OutlookメールからTeams、そして他のクラウドサービスの管理に使用されるAzureポータルまで、あらゆるサービスへのログインを制御しています。5時間にわたる影響は、デスクトップ版のMicrosoft OfficeやVisual Studioの一部にも及んでおり、ライセンスを確認できないため実行できないというエラーが表示されるなど、生産性を阻害する問題にも及んでいました。

米国の緊急通報サービス911が影響を受けたという主張がありますが、RapidDeploy Nimbus Dispatchシステムが「Microsoft Azureベースのコンピュータ支援ディスパッチプラットフォーム」と自称していることを考えると、これはあり得ない話ではありません。認証に問題がある場合、他のAzureリージョンへのフェイルオーバー機能を備えた回復力の高いサービスであってもアクセスできなくなり、使用できなくなる可能性があります。

同社はまだ詳細を明らかにしていないが、本日のステータスレポートでは「最近の構成変更がバックエンドのストレージ層に影響を与え、認証リクエストに遅延が発生した」と述べられている。

男性がパソコンの前でパニック発作を起こす

マイクロソフトによると、よりポジティブな「障害体験」をする方法:Azure ステータス ページに依存しないでください

続きを読む

ステータスツイートで状況の一部を把握できます。午後11時36分:「影響の原因と思われる変更をロールバックしました。」午後11時49分:「最近の変更をロールバックした後、接続成功率の増加は確認されていません。」午前0時48分:「ユーザーエクスペリエンスを向上させるため、トラフィックを代替インフラストラクチャにリダイレクトしています。」午前1時40分:「緩和策を適用した後、複数のサービスで改善が見られます。」

主要な障害が復旧した後も、問題は完全には収束していませんでした。マイクロソフトは本日、管理センターを通じて、英国時間午前7時20分から午前11時52分の間、「一部のユーザーがSharePoint OnlineまたはOneDrive for Businessにアクセスできなかった」と報告しました。問題は、「最近のAAD障害の影響を軽減するために実施した変更がこの問題を引き起こした」とのことです。マイクロソフトは、「今後同様の問題が発生するのを防ぐため、展開およびプロビジョニング手順を見直しています」と付け加えました。

広範囲に及ぶ問題の解決に、ストレスを抱えながら懸命に取り組んでいるエンジニアたちに、IT管理者なら誰もが同情するだろう。「当社の事業規模と変化のスピードを考えると、残念ながらシステム障害を完全に回避することは不可能だと認識しています」と、CTOのマーク・ルシノビッチ氏は8月17日に述べた。その後の出来事は、この言葉の真実を証明した。特に英国では、わずか2週間前に大規模なAzureデータセンターでシステム障害が発生した。

障害は避けられないかもしれませんが、それでもマイクロソフトは答えなければならない難しい問題を抱えています。クラウドの信頼性を測定することは容易ではありません。重要なのは障害の回数ではなく、その範囲と影響だからです。

では、モノディレクトリがなぜ良いアイデアではないのか、皆さんは理解していますか?

Microsoftは、明らかに多くの問題を抱えているようだ。ガートナーは最近、「過去1年間、回復力重視の取り組みとサービス可用性指標の改善が行われたにもかかわらず、Azureのアーキテクチャと実装全体に関して、Microsoftは依然として懸念を抱いている」と指摘した。アナリストの懸念は、リージョンに対する可用性ゾーンの比率が低いこと、そして「可用性ゾーンモデルをサポートするサービスが限られている」ことに一部基づいている。

ガートナーの懸念はもっともだが、最近の混乱の原因はそこではない。Oktaのアイデンティティアーキテクトであるビル・ウィッテン氏は、要点を突いてこうコメントした。「では、モノディレクトリがなぜ良いアイデアではないのか、皆さんは理解しているでしょうか?」

MicrosoftはAzure Active Directoryを基盤として構築しすぎたため、単一障害点となっています。同社は、障害がほぼ発生しないほどの耐障害性を実現するか(おそらくこれがMicrosoftの意図でしょう)、あるいは、多数のサービスへの依存を段階的に減らすことを検討する必要があります。

Igniteオンラインカンファレンスの直後に発生した今回の障害は、同社にとって恥ずべき事態です。マイクロソフトはこの件についてあまり語っていませんが、クラウドへの野心とAWSへの追い上げを継続していく上で、おそらく最大の課題と言えるでしょう。®

Discover More