オンコール金曜日へようこそ。週末がもうすぐそこまで来ています。ベーコンサンドイッチは置いて、今日のオンコールをお読みください。レジスター紙がお届けする、転換期の出来事を綴った週刊コラムです。
今日の話は、「ジェイソン」から来たものです。彼は、ここ 10 年の終わり頃に「イラクの大きな基地の 1 つ」で現地のシステム管理者として充実した時間を過ごしてきました。
ジェイソンは基地の契約社員なので、当然ながらほぼ常に待機しており、基地の技術管理施設 (TCF) が毎月電力システム転送テストを実施していたときにも立ち会っていました。
少し背景を説明すると、TCFは基地のネットワーク、通信、非機密インターネットプロトコルルーターネットワーク(NIPR)、そして極秘の秘密インターネットプロトコルルーターネットワーク(SIPR)を担当していました。NIPRは非機密情報の共有とアクセスに使用され、SIPRは国防総省版のSIPRで、より機密性の高いデータも流すことができました。
作業を保存する必要はない。クラウドにある。でも、マイクロソフトはこのファイルの問題を本当に解決すべきだ
続きを読む
「当社の設備には、2 つの独立したベース発電機ファーム (すべての電源) への完全に冗長化された回線接続と、必要なすべてのものを稼働できる定格の当社独自のディーゼル発電機がありました。」
あらゆるギャップを補うためのバッテリー バックアップもありました。これはすぐに非常に重要な事実になります。
テストは問題なく何度も実行されており、電気工事業者は通常、TCF を基本電源から切り離し、発電機を始動させて 30 分間のテスト運転を行っていました。
このテストは昼食時間頃に始まったので、ジェイソンは基地のサブウェイに「ターキーベーコンサブ(ベーコン抜き)」を買いに行きました。
彼が戻ってきた時、事態は悪化していた。「発電機は正常に作動せず、電気技師たちが電力の開閉器制御盤の周りに集まっていました。技術制御の担当者も何人かいました。」
ギャングたちは基地の電源に切り替えることもできず、そのためバッテリーで動いていた。
さて、バッテリーについてですが、「バッテリー設備には絶対の自信を持っていると言いたいところですが、実際にはTCFの外にある屋根付きの保管エリアに過ぎず、夏の間は車のバッテリーが120度(華氏約48度)を超える暑さの中で焼け付くような状態でした。私がそこにいた時から、その能力を完全にテストしたことはありませんでした。」
そうだ、ジェイソン、今日はその日だ!
バッテリーの数が不明なことに加え、ジェイソンが抱えていたもう一つの問題は、限られた電力がサーバーの稼働維持にのみ使われていたため、部屋が熱くなっているという点でした。彼はこう言いました。「サーバーは(もちろん私が到着する前から)非常に不適切な方法でラックに収納されていたため、1台を開けて部品の埃を取り除くには、ラック内の他のサーバー3台を移動させなければならないこともありました。そのため、サーバー内部の断熱材として大量の埃が溜まっていたのです。」
室内の温度は通常68~70°F(約20~21℃)で推移していましたが、ジェイソンが最初に確認したところ、温度は80°F(約26℃)まで上昇していました。しかし、NIPR、SIPR、そして通信機器はすべてまだ稼働していました。
20分が経過し、間に合わせのバッテリーバックアップシステムが無事に持ちこたえたことに、少しばかりの誇りを感じています。同時に、気温が90° F(約32℃)を超えているため、システムの電源を切る必要がある時間も近づいていることも認識しています。
ジェイソンは制御された電源遮断(重要度の低いサーバーをシャットダウンするが、通信機器は稼働させ、少なくとも電話は使えるようにする)の準備を整えていた。その時、避けられない事態が起きた。バッテリーが突然切れ、全てがダウンしてしまったのだ。
「TCF に電力が供給されなかったため、私たちに残されたのはバックアップの国防交換網 (DSN) 電話 (基地用の基本的な POTS システムで、これを使用できる建物はほとんどなかった) だけでした。」
ギャングたちは送電線のスイッチと格闘した後、ようやく電力を復旧させたが、今度は多くの管理者が顎を撫でて喜ぶような新たな問題に直面した。
すべてのドメインコントローラは仮想化されていました。ジェイソン氏の説明によると、その問題は「仮想サーバーの物理ハードウェアの電源は入れることができましたが、私たちのような下級ローカル管理者には、vSphereソフトウェア上で仮想ドメインコントローラを起動する権限がなかった」ことでした。
したがって、電子メール サーバーやファイル サーバーを起動してもあまり意味がありません。
「少なくとも 1 つの物理ドメイン コントローラーを維持することを主張しましたが、効果はありませんでした。」
そして、もちろん、NIPR サーバーと SIPR サーバーが少し不調だったため、VoIP は選択肢になく、仮想サーバーを実際に起動できるサポート スタッフに連絡できる DSN 番号を持っている人は誰もいませんでした。
結局、TCF の大部分がダウンしたまま、適切な人を見つけるために電話をかけ回るのに 25 分かかりました。
政府の標準的な運用手順の喜びですね。
ジェイソンは最後にこう言いました。「大規模な障害に関する事後報告書を作成し、仮想サーバーを起動する簡単な権限がなかったためになぜさらに 40 分も延長されたのかを説明するのは楽しかったです...」
時々、「そう言ったでしょ」という言葉が最も満足感を与えてくれることがあります。
それで、あの動かない発電機と調子の悪いスイッチは?まだ謎だ。
定期検査で失敗し、大変な目に遭った経験はありませんか?「こんなことになるって言ってたのに」と思わず口にしてしまった経験はありませんか?もちろんあります。On Callにそのことをすべて伝えてください。®