欧州のウェブホスティング会社 OVH は、1 か月以内に 2 度目の大規模な障害が発生し、通常のパフォーマンスを完全にサポートできない状態*にあると報告し、今回の障害は前回の障害の原因を修復しようとしたことが原因であると認めました。
OVHは11月の停電は電力問題とケーブル切断が原因だとした。
しかし、12月6日水曜日にCEO兼創業者のオクターブ・クラバ氏が提出したこのインシデント通知には、「問題は、当社が使用している機器のソフトウェアのバグに関連しており、それが設定の削除を引き起こした」と記載されていた。
通知には次のように続きました。「それ以来、ネットワーク上のすべての機器を更新しました。また、この種のバグが二度と発生してデータセンターに不安を抱かせないように、 RBXウェブサイトで機器クラスターを3つに分割することにしました。そのため、今後このバグが再び発生した場合でも、この設定によるトラフィックへの影響は30%にとどまります。」
OVHは24時間停止から何を学んだのか?水とサーバーは混ざらない
続きを読む
同社は、2017年12月6日(ヨーロッパ時間)の遅くに新体制への移行を計画していました。しかし、新システムへの移行は失敗し、ヨーロッパおよびそれ以外の地域で接続障害やサービス停止が発生しました。
「23:00に開始予定だったメンテナンスの準備中に、午後8:20に構成が再び消え、すべてのリンクが再びダウンしました!!!!!」とKlabaの通知には書かれていた。
ちなみに、あれはKlabaの感嘆符です。彼があれだけたくさん感嘆符を使ったのも無理はありません。次の文は「最新のソフトウェアバージョンを使用しているのにデータベースが削除されました。つまり、またバグが発生したということです!」ですから。
次のステップは?「RBX に設定が配信されている間にすべてのリンクが稼働していない理由を Cisco に問い合わせて理解します。」
この障害により、執筆時点では以下に示すように、OVH のステータス ページの状態が悪化しました。
OVHのステータスページ:至る所に赤信号。拡大するにはここをクリック
この事件に少しでも良い点があるとすれば、ヨーロッパの夜遅くに発生し、未明まで続いたことだ。この時間帯は交通量が少なく、顧客の中には業務への大きな影響に気付かない人もいるかもしれない。
しかし、被害に遭い、イライラし、洪水被害も経験し、このような事態を避けるためのルーターの設定もできない会社になぜ仕事を任せてしまうのか疑問に思う人も大勢いるでしょう。
OVHはThe Registerにこの事件に関する声明を送ることを約束した。®
*通常のパフォーマンスを完全にサポートできない = TITSUP