AI 処理のエネルギー消費量がますます増大する中、Google は 1 MW の IT ハードウェア負荷をサポートするデータセンター ラックと、それに対応するための冷却インフラストラクチャを計画しています。
なるほど、英国は大量のAIデータセンターを建設中です。どうやって電力を供給するのでしょうか?
続きを読む
ダブリンで開催された Open Compute Project (OCP) サミットで、Google はサーバールーム技術の変化について議論し、それが AI の継続的なスケールアップ能力にとって重要であり、おそらくはより大規模で複雑なモデルの提供につながるだろうと主張した。
一般的なデータセンター ラックの電力消費量は 5 kW から 30 kW 程度ですが、電力を大量に消費する GPU アクセラレータを搭載したサーバーの使用が急増したことにより、この数値は 100 kW 以上に上昇し、Nvidia の DGX GB200 NVL72 システムは 120 kW に達しています。
現在、クラウドおよび検索の大手企業は、OCP がこれまで推進してきた 48 ボルト直流 (VDC) 電力配分から +/-400 VDC システムに切り替えることで、これらのサーバー ルームがラックあたり最大 1 MW をサポートできるようになると述べています。
「これは単に電力供給能力を高めることだけではない。公称電圧として400VDCを選択することで、電気自動車(EV)によって確立されたサプライチェーンを活用して、規模の経済性を高め、製造をより効率的にし、品質と規模を向上させることができる」とGoogleは主席エンジニアのマドフスダン・アイエンガーとアンバー・ハフマンが執筆したブログ記事で述べている。
このビジョンには、ITラックから電源コンポーネントを分離し、データホール内の同じ列にある別のラックユニットに集約することも含まれています。Googleによると、これはMt Diabloと呼ばれるプロジェクトであり、ライバルのハイパースケーラーであるMetaおよびMicrosoftと共同で開発を進めており、5月に仕様のドラフト0.5を業界向けに公開する予定とのことです。
実際には、これはチョコレートファクトリーが「サイドカー」と呼ぶ、他のラックに電力を供給する専用の AC/DC 電源ラックとなり、GPU を詰め込んだサーバー用に各ユニット内にさらに多くのスペースを解放するというアイデアに基づいています。
「長期的には、電力密度と効率をさらに高めるために、データセンター内およびラックに高電圧のDC電力を直接配電することを検討しています」とGoogleの著者らは主張している。
マウンテンビューに本社を置く同社はまた、機械学習のワークロードを高速化するためにTensor Processing Unit(TPU)を実行するクラウドインフラストラクチャの一部として以前に導入された冷却技術の第5世代を開発中であるとも発表した。
- 熱によってリチウムイオン電池が爆発する可能性がある。あるいは容量を回復させる可能性もあると中国の専門家は言う。
- ネバダ州のGoogleデータセンター、地熱エネルギーを本格的に活用へ
- データセンター業界にとって持続可能性は依然として優先度が低い
- 米国エネルギー省は、開発者に対し、同省の土地にAIデータセンターを迅速に建設するよう求めている。
その実装は、高可用性のために無停電電源装置 (UPS) を備えたインロー冷却剤分配ユニット (CDU) に基づいています。
CDUはサーバーラックに電力を供給し、データホールのより広範な配管ループに接続されます。冷却剤は最終的にフレキシブルホースを介して、高出力チップに直接取り付けられたコールドプレートに供給されます。これは、多くのハイパフォーマンスコンピューティング(HPC)ショップでよく見られるシステムです。
Google によると、Project Deschutes と名付けられた同社の CDU アーキテクチャは、信頼性を高めるために冗長化されたポンプと熱交換器ユニットを備えており、これにより 2020 年以降 99.999 パーセントの CDU 可用性を達成できたという。
新しいキットは現在開発中ですが、クラウドおよび検索企業は、他の企業が大規模に液体冷却を導入できるように、今年後半に OCP に設計を提供する予定です。®