コメント今年の夏の猛暑は、平均的な英国人の生活を少々悲惨なものにしているだけでなく、機器の稼働を維持しようとしている一部のクラウド プロバイダーやサーバー管理者にも問題を引き起こしています。
先月、グーグルとオラクルが運営するロンドン東部のデータセンターは、この地域で記録的な猛暑に見舞われ、故障に見舞われました。英国の一部地域では気温が40度を超えました。
両IT大手は、冷却システムの故障を理由に挙げました。これにより施設内の温度が望ましくないレベルに達し、ハードウェアの損傷を防ぎ、データ損失を最小限に抑えるため、顧客のシステムとワークロードを強制的にシャットダウンせざるを得ませんでした。
気象学者たちは今後さらに異常気象が起こると予測しており、将来の災害を軽減するためにこれらの停電から何を学べるのか疑問に思う。
これまでのキャリアの大半をデータセンターの設計とコンサルティングに費やしてきたオムディアのアナリスト、モイセス・レヴィ氏は、こうした出来事は、こうした施設の設計と保守におけるリスク管理と計画の重要性を強調するものだと語った。
また、この種の停止はそれほど一般的ではなく、予測が難しい場合もあるが、これらのインシデントから学ぶことは、サイトの運営者や経営陣が逃すべきではない機会であると彼は述べた。
均衡を保つ
レヴィ氏が説明するように、データセンターは、ワークロードが電力を消費して熱を発生し、その熱を同様に電力を必要とする機器で除去するという、絶妙な均衡状態で稼働しています。電力はコスト、ワークロードは収益に等しく、過度のコストをかけずにワークロード収益を維持するためには冷却が必要です。冷却が不十分であれば、損害と収益の損失につながり、冷却が過剰であれば問題が生じます。さらに、冷却には設置費用がかかります。これは興味深い方程式です。
データセンター運営者は、電力使用量、冷却、コンピューティング密度のバランスを取る際に、潜在的なダウンタイムを回避するために、通常、最悪のシナリオを想定します。これは、世界中でコロケーションデータセンターを運営するEquinixが採用している戦略です。
「当社は地域の気候条件に合わせて設計し、現在観測されている最高気温と、将来予測される最悪の気温の両方に対して、信頼性と効率性を考慮してプラントの選択を最適化しています」とエクイニクスのグローバル設計担当シニアディレクター、グレッグ・メトカーフ氏はThe Registerに語った。
これは、冗長化された冷却設備の仕様策定と導入、あるいは追加のバックアップ電源のプロビジョニングといったシンプルな作業で実現できます。例えば、テキサス州ダラスのような一般的に高温の気候帯では、Equinixは複雑かつ高度に冗長化された温度制御システムを導入し、施設を保護しています。
標準の欠如が液浸冷却の進歩を妨げているのでしょうか?
続きを読む
「冷却設備は最悪の状況を想定して設計されており、工場でそのようにテストされています」とメトカーフ氏は述べた。「ハードウェアの冗長化により、ピーク時の熱波発生時にはバックアップマシンを呼び出すことで、特定の施設における冷却設備の生産にかかる全体的な負荷を軽減できます。」
グーグルはロンドンでの停電後の事後報告で、この障害の原因は「複数の冗長冷却システムの同時故障と異常に高い外気温」にあるとしている。
Google がこのように同じ文の中で「同時」と「冗長」という言葉を使用しているのは非常に興味深い。これは、温度調節システムの故障の原因となった単一障害点があったか、または施設が複数のシステムで同時に同じ障害が発生する可能性があるように設計されていた可能性があることを示唆しているからだ。
データセンターやクラウドの障害は、通常、長期間、あるいは短期間の障害が連続して発生した後に発生します。ある部分が動作不良を起こしたり、設定ミスが発生したりすると、それが別の部分の障害を引き起こし、それがさらに別の部分に負担をかけ、最終的に全体が崩壊します。障害を防ぐには、こうした個々のミスが雪だるま式に大きくなり、実際のダウンタイムにつながらないようにすることが重要です。
たとえば、熱波の場合には、施設の温度制御装置を起動し、オンデマンドで温度を調節するメカニズムも存在し、動作している必要があります。そうでない場合は、余分な冷却能力がいくらあっても意味がありません。時間内に使用されない、あるいはまったく使用されないことになります。
「データセンターをサイロ化せずに包括的に捉えることが非常に重要です」とレヴィ氏は述べた。「あらゆるものが互いに影響を及ぼし、連鎖反応を引き起こす可能性があります。」
たとえば、データセンターの電力供給が中断したり、冷却制御システムが故障したり、温度上昇に反応できなかったり、温度上昇を検知できなかったりすると、システム停止につながる可能性があります。
グーグルとオラクルに起きたのはまさにこれだったようだ。圧倒的な、歴史的な熱波の中、冷却システムが故障したのだ。グーグルは、自社の冷却システムが単に熱を緩和できなかったとは言わなかった(あるいは言いたくなかった)。最も必要とされる時に設備が機能しなかったのだと主張したのだ。
レヴィ氏はまた、データセンター内のすべてのコンポーネントが他のコンポーネントと同様に極端な温度の影響を受けやすいわけではないと指摘した。データセンター全体にある様々な機器は、コンピューティング、ネットワーク、ストレージなど、さまざまな用途で使用され、一定の動作温度範囲内で動作する。CPUの場合は90℃から100℃、ハードドライブの場合は55℃から65℃にもなることがある。
機器の経年変化も影響する可能性があります。「古い機器は高温に敏感かもしれません。一方、新しい機器はそれほど敏感ではなく、より広い温度範囲に対応できるかもしれません」とレヴィ氏は述べています。今年初め、Googleがコスト削減のためにクラウドシステムの寿命を1年延長したことをお伝えしました。
留意すべきもう 1 つの点は、冷却危機が発生した場合、ネットワーク、ストレージ、コンピューティング リソースが相互に大きく依存しているため、過剰な熱に対して特に脆弱なシステムをシャットダウンするだけでは必ずしも解決しないということです。
例えば、仮想マシンはコンピューティングノード上で実行されているものの、そのリソースはネットワーク経由で接続された別のストレージノード上に配置されている場合があります。コンピューティング、ストレージ、ネットワーク/オーケストレーションの3つのうち、いずれか1つがハードウェア障害や損傷防止のために停止すると、仮想マシンも停止します。
- Google:ロンドンの熱波からデータセンターを守るため、閉鎖せざるを得なかった
- 災害に強いアプリの導入は思ったより簡単かもしれません
- 英国の猛暑でグーグルとオラクルのクラウドサーバーがダウン、ウェブサイトがダウン
- エネルギー省は溶融塩原子炉技術を発掘し、ロスアラモスを先頭に復帰の道を開く
問題を複雑にしているのは、コンピューティングリソースの消費電力が増大し、それに伴って発熱も増加しているという事実です。多くのアクセラレータは現在、TDPを700Wにまで引き上げており、中には2U筐体に数キロワットのコンピューティング能力を詰め込んでいるメーカーもいます。
データセンター運営者が電力と冷却インフラの改善にこの点を考慮しなければ、将来的に問題が発生する可能性があるとレヴィ氏は説明した。
これはエクイニクスにとって標準的な手順であり、頻繁に変化するコンピューティング負荷に加え、外部要因も考慮に入れています。「各拠点では、天候だけでなく、近隣の熱源など気候の影響も分析し、必要な暖房と冷房に影響を与える複数の要素を把握しています」とメトカーフ氏は述べています。
学ぶべき教訓
英国の前例のない熱波を指摘し、停電の原因を責めるのは簡単ですが、高温の気候でデータセンターを運用するという概念自体は決して新しいものではありません。Googleに公平を期すなら、ロンドンが米国のテキサス州やアリゾナ州のような夏の天候に見舞われるとは誰も予想していません。英国の首都にサーバー倉庫を建設する際に、オースティンやフェニックスの長く灼熱の日々を思い浮かべる人はおそらくいないでしょう。今のところは。
電力、冷却、コンピューティング、そして外部要因を考慮すれば、異常気象などによる混乱は軽減できるでしょう。私たちの見解では、リスクを考慮すると、コストに見合う価値があるかどうかが問題です。一方、Googleは資金繰りに困っているわけではなく、Oracleを除けば、競合他社は英国の熱波による被害を受けていないようです。
「データセンター業界は、こうしたあらゆる事態に十分備えています。とはいえ、データセンター業界がいかなる事態からも免れるわけではないのです」とレヴィ氏は付け加えた。
こうした障害が実際に発生した場合、その原因を分析し、障害が発生した場所を特定し、その情報を公開することで、他の人が同様の運命を避けることができます。
何が問題だったのか、そしてどのコンポーネントが最初に影響を受けたのかを正確に把握することが重要だとレヴィ氏は述べた。「得られた教訓が公開されることを願っています。私にとって、それは業界全体にとって大きな利益となり、誰もがそこから学び、このような事態を回避できるようになるでしょう。」
これは、Googleが今回の障害を受けて約束した主な対策です。このアメリカのテクノロジー大手は、データセンター内の熱負荷を軽減するための高度な手法を調査・開発し、将来の復旧時間短縮に向けた手順、ツール、自動復旧システムを検証し、すべてのデータセンターの冷却システム機器と基準を監査すると述べました。
最後に、レヴィ氏は、こうした障害の影響を軽減するための対策を講じる必要があると強調しています。例えば、ハイパースケーラーやクラウドプロバイダーは、ワークロードを他のデータセンターに移行したり、複数のゾーンやリージョンにまたがって実行したりすることで、サービスの中断を回避できます。
しかし、Uptime Institute のアナリスト、オーウェン ロジャーズ氏が以前のThe Register のインタビューで語ったように、クラウド展開における冗長性の実装は自動ではなく、多くの場合、顧客側で手動構成が必要になります。®