少なくとも過去 1 ~ 2 時間、Microsoft の Azure クラウドは DNS 構成の不具合により世界中で頻繁にダウンしていました。
プラットフォーム全体の障害により、Azure SQL データベースや App Services から多要素認証、Microsoft 365 や Teams、Dynamics、SharePoint Online、OneDrive に至るまで、世界中のレドモンドがホストするあらゆる種類のシステムが機能停止に陥った。
本稿執筆時点で、クラウド大手のAzureは徐々に回復しつつあり、Azureリージョンも順次復旧していますが、状況は人によって異なる可能性があります。問題はUTC1945頃より始まったようです。
「Azure および他の Microsoft サービス (M365、Dynamics、DevOps などを含む) で断続的な接続問題が発生する可能性があります」と、Azure ステータス ページには、現在 21:28 UTC で記載されています。
エンジニアは、ネットワーク接続に影響を与える DNS 解決の問題を調査中です。接続の問題により、コンピューティング、ストレージ、データベース サービスにダウンストリームの影響が生じており、一部のお客様はサポート リクエストを提出できない可能性があります。
詳細は分かり次第お知らせいたします。一部のお客様においては、回復の兆しが見え始めているかもしれません。
言い換えれば、まだ警報解除は出ておらず、これから 30 分以内に何が起きてもおかしくないということです。
以前の Azure ステータス ボードの様子... クリックして拡大
Microsoft 365 のステータス ページでは、レドモンドの技術者がダウンタイムの原因は内部 DNS 構成エラーにあると主張しています。
ユーザーがMicrosoft 365サービスにアクセスできない原因となっていたDNS構成の問題を特定し、修正しました。詳細は管理センターのSP178746、OD178975、MO178979をご覧ください。
— Microsoft 365 ステータス (@MSFT365Status) 2019年5月2日
DNS の問題が Azure に悪影響を及ぼすのは今回が初めてではありません。前回発生したときは、推定で数件の顧客のデータベースが消失しましたので、皆さん、幸運を祈ります。®
UTC 2300 に追記しました
マイクロソフトは、障害が発生したシステムを修復し、本日の3時間にわたる障害を解消し、Azureのネットワーク インフラストラクチャはほぼ正常に戻るはずだと述べている。「緩和策が適用され、ほとんどのサービスは回復しましたが、まだ何らかの影響を受ける可能性のある少数のサービスが残っています。」
この技術大手は、最終的には DNS システムの移行の失敗が原因であると付け加えた。「エンジニアは、ネームサーバーの委任の変更が DNS 解決に影響し、コンピューティング、ストレージ、App Service、AAD、および SQL データベース サービスにダウンストリームの影響を及ぼしたことが根本的な原因であると特定しました。」
従来の DNS システムから Azure DNS への移行中に、Microsoft サービスの一部のドメインが誤って更新されました。このインシデントの間、顧客の DNS レコードは影響を受けず、Azure DNS の可用性はインシデント発生中も 100% を維持しました。この問題は Microsoft サービスのレコードのみに影響しました。
この問題を軽減するため、エンジニアはネームサーバーの委任問題を修正しました。誤って設定されたドメインにアクセスしたアプリケーションやサービスは、誤った情報をキャッシュしていた可能性があり、キャッシュされた情報が期限切れになるまでの復元に時間がかかる可能性があります。