2018 年 4 月の米国の納税日のシステム停止は IBM ディスク アレイの障害が原因でしたが、2 度にわたって回避できた可能性があります。1 度目はより最新のマイクロコード バンドル、2 度目は秘密の IBM スクリプトです。
2018年の納税年度の最終申告日である4月17日にオンラインでの納税申告が11時間遅延し、IRSは申告期間をさらに1日延長しなければならなかった。
税務申告システムはメインフレーム ベースで、複数の高可用性ディスク アレイを使用しています。主な契約者は Unisys、副契約者は IBM で、エンタープライズ ストレージ サービス (ESS) 契約を結んでいます。
今日は米国の納税日なので、当然IRSのサーバーは急降下している。
続きを読む
今月発表された米国政府の報告書によると、これらのうちの 1 つは、キャッシュ オーバーフローによる「ウォーム スタート」(ウォーム ブートともいう) 後にデッドロック状態に陥り、東部標準時 (EST) 02:24 に IRS 管理スタッフに警告し、4 月 17 日 02:57 EST に IBM にコールホーム警告メッセージを送信しました。
驚いたことに、これは重大度レベル 3 の警告として分類され、翌営業日の終わりまでに応答する必要がありました。
東部標準時3時30分までにさらに多くのIRSシステムが影響を受け、影響を受けたシステムの波がIRSを襲いました。東部標準時7時45分までに59のシステムが障害を受け、東部標準時9時45分には「大規模障害」が宣言されました。東部標準時13時40分までに修復スクリプトが開発され、15時に限定的な納税申告書の提出が開始され、17時に完全な申告が再開されました。
ファームウェアのバグの根本原因は、実はその9か月前の2017年6月にIBMによって発見され、マイクロコード修正であるマイクロコードバンドル88.24.6.0が2017年11月7日に一般公開されました。
IRS はなぜパッチを当てなかったのでしょうか?
この報告書から良い印象を得られる人は誰もいない。
IRSの情報技術部門の技術者は、主要請負業者であるUnisysおよびIBMと毎月会合を開き、IRSメインフレームの現行マイクロコードバンドルについて議論している。しかし、報告書によると、Unisysは十分なテストが行われていないため、2018年の納税申告期間中は88.24.6.0を適用しないよう勧告したという。
理由がないわけではないが、Unisys には、IRS 機器にインストールする前にバンドルを「実稼働環境で 450 マシン週*」実行することを要求する「非公式」ポリシーがあったようだ。
IRS は、「より安定している」と考えられていた以前のバンドル 88.23.20.0 を使用することに同意しました。
しかし、その会議の1か月後、2018年1月、IRSのシステム障害発生の4か月前に、別のIBM顧客が同じバグに遭遇しました。IBMは予防スクリプトを開発・導入し、バグを修正しました。しかし、IBMはこの件についてIRSにもUnisysにも報告しませんでした。
単一障害点
報告書では、IRSと請負業者のITに関する意思決定の一部が不適切であることを示すいくつかの点にも触れられています。まず、Tier 1ストレージ環境に分類されるIRSの納税申告システムは、自動フェイルオーバーや冗長性が組み込まれておらず、単一障害点となっていました。この問題は現在、修正中です。
第二に、請負業者 (Unisys) は、停止日にいくつかのサービス レベル目標 (SLO) を達成できませんでした。
報告書は、IRS に対して、マイクロコード バンドルの月例会議を正式なものにし (11 月の会議の議事録や決定事項の文書は存在しない)、エンタープライズ ストレージ サービスの契約業者である Unisys に損害賠償を求め、契約内容を修正するよう勧告した。
全体として、納税日のシステム停止は、人為的ミス、不適切な手順、システムの単一障害点による痛ましい結果でした。®
* コードが実行されていた週数に、コードがインストールされているボックスの数を掛けた値。