誰、私?月曜日、なんてひどい月曜日。でもご心配なく。『誰、私?』には、状況はもっと悪いこともあると気づかせてくれる、程よい緊張感に満ちたストーリーがあります。
今回、El Regの毎週の技術大惨事コラムを担当するのは、中規模の地域 ISP で運用システム管理者として働いていた「Todd」です。
彼の仕事は、常にイライラさせる警告に悩まされていたが、ある日、彼はそれを「解決」しようと決めた。
「警告には、DNS ヘッドエンドのセキュリティ ポリシーにより、特定のシステム デーモンが起動するたびに特定のファイルへの書き込みアクセスが拒否されると書かれていました」とトッド氏は説明した。
「このファイルは重要ではなかったので、警告を無視していましたが、ある日、私はこの迷惑に対処できる心構えができました。」
そこでトッドはセキュリティポリシーを作成した。「それは基本的に『このファイルはこのプロセスによってこの方法でアクセスできる』と規定した3行のポリシーでした」と彼は語った。
「私は、私たちの一般的な慣例に従って、'foobar_keepalive' のような名前を付けました。ただし、'foobar' は別の名前です。」
トッドにとって残念なことに、「キープアライブ」の部分は正確であり、物語にとって特に重要なものになりつつあります。
「これは単純で無害なポリシー変更だったので、私は先に進んでこれをすべての DNS ヘッドエンドにプッシュし、昼食中に何をすべきか考え始めました。」
トッドが考え事をしている間、オフィス内の騒音レベルが目に見えて上昇し、社内チャットが忙しくなり、さまざまなエラーが表示されました。
「おバカな新入生」がメールボックス破壊の責任を上司に押し付ける
続きを読む
「問題は DNS にあり、何も解決されていないと分かるまで、ほんの数秒しかかかりませんでした」と彼は語った。
「そして、テクニカルサポートのコールセンターがある隣の建物から聞こえてくる悲鳴から判断すると、私たちの顧客全員にとっても同様です。」
トッドは「上司から『何だって?』と怒鳴られ、何度も怒鳴られました」が、変更をロールバックした。しかし、問題は解決しなかった。
チームはDNSサーバーの1つでセキュリティポリシーエンジンをオフにしたところ、DNSはすぐに解決を再開しました。「こうして復旧し、問題を調査しました。」
問題は、誰かが「『foobar_keepalive』という別のセキュリティ ポリシーを苦労して作成し、それをバックアップから復元すると、セキュリティ ポリシー エンジンへのさまざまな指示が 9,000 個になった」ことでした。
トッドはそれを、昼食前の3行の「イライラ解消法」で上書きした。
「つまり、『keepalive』というサービスは、DNSヘッドエンドサーバー同士が実際に稼働していることを相互に確認するために必要な処理を突然実行できなくなり、ルーティングから撤退してしまったのです。すべてのサーバーが。」
トッド氏は、サービスは数分以内に回復し、根本原因も約20分以内に解決されたものの、日中に長時間にわたり全員がオフラインになったと述べた。
「あるいは、私のパートナーが簡潔に表現したように、私は全員にコーヒーブレイクを与えました。」
しかし、上司が明言し、トッド自身も認めているように、「私たちは、気まぐれに顧客にコーヒーブレイクを提供することで事業を維持しているわけではありません」。
同僚やお客様に、頼まれもしない休憩を最後に与えたのはいつですか?誰に、私に?あなたのストーリーを聞かせてください。来週、このページで特集されるかもしれません。®