NvidiaのBlackwell効率向上がDC事業者にもたらす意味

Table of Contents

NvidiaのBlackwell効率向上がDC事業者にもたらす意味

分析:先週のGTCでNvidiaが1,200WのBlackwell GPUを発表する前から、CPUとGPUの発熱と消費電力の増加はすでにデータセンター運営者の頭痛の種となっていた。

過去 1 年間、データセンター オペレーターとコロケーション プロバイダーは、チップ温度の上昇を見越して、リア ドア熱交換器 (RDHX) や、場合によってはチップへの直接冷却 (DTC) 液体冷却を使用することで、高密度展開のサポートを拡大してきました。

NvidiaのBlackwellラインナップを見ると、これらの変更は正当化されているように思われます。ラックあたり約60kW(ノードあたり14.3kW)のDGX B200システムを4台スタックしただけで、Digital Realtyの施設における標準的な空冷ラックの限界を既に押し上げています。

しかも、これはNVIDIAの最も強力なシステムではありません。先週詳しく紹介した最新のGB200 NVL72ラックスケールシステムは、定格出力が120kWで、当然のことながら水冷が必須です。

ラックに吸い込まれる熱は相当な量ですが、それだけではありません。Blackwell のパワーと効率性の向上を見てみましょう。

ワットあたりのパフォーマンス

Blackwellの発表時、NVIDIAは自社チップの性能と効率性について大胆な主張を展開しました。この点については後ほど詳しく説明しますが、まずはこれらのチップがワットあたりの浮動小数点演算性能(FLOPS/W)でどの程度優れているかを見てみましょう。

GPU パフォーマンス/W B100(SXM) B200(SXM) GB200(GPUのみ) H100(SXM) A100(SXM)
TDP 700W 1,000W 2,400W 700W 400W
TF32 2.6 TFLOPS/W 2.2 TFLOPS/W 2.08 TFLOPS/W 1.41 TFLOPS/W 0.78 TFLOPS/W
FP16 5 TLOPS/W 4.5 TFLOPS/W 4.16 TFLOPS/W 2.82 TFLOPS/W 1.56 TFLOPS/W
FP8/INT8 10T(FL)OPS/W 9 T(FL)OPS/W 8.33 T(FL)OPS/W 5.65 T(FL)OPS/W 3.12 トップ/W
FP4 20TFLOPS/W 18 TFLOPS/W 16.66 TFLOPS/W 該当なし 該当なし

注: Blackwell は実際には倍精度ワークロードでは Hopper よりもパフォーマンスが低いため、このラインナップには FP64 パフォーマンスを含めませんでした。

GPU効率のみで見ると、Blackwellは大きなゲインを示しており、FP16に正規化するとHopperと比較して約1.7倍、Ampereと比較して3.2倍の効率向上が見られます。もちろん、ワークロードで低い精度を活用できる場合は、さらに大きなゲインが期待できますが、結論はほぼ同じです。

しかし、Blackwell GPUのSKUを比較すると、700Wを超えるとパフォーマンスの収穫逓減が見られるようになります。1,000WのB200と、1,200Wのツインアクセラレータを搭載したGB200では、消費電力とFLOPSをトレードオフしているように見えるかもしれませんが、それは必ずしも正確ではありません。

H100とは異なり、BlackwellのパーツはいずれもまだスタンドアロンのPCIeカードとしては入手できません。

つまり、HGX、DGX、またはSuperchipベースの構成の一部として購入することになります。つまり、GB200の場合はGPUが2基、HGX B100またはB200ベースのシステムの場合はGPUが8基の最小構成となります。

システムパフォーマンス/W HGX B100* DGX B200 GB200 NVL72 DGX H100 DGX A100
TDP 10.2kW 14.3kW 120kW 10.2kW 6.5kW
TF32 1.41 TFLOPS/W 1.23 TFLOPS/W 1.5 TFLOPS/W 0.77 TFLOPS/W 0.38 TFLOPS/W
FP16 2.74 TFLOPS/W 2.51 TFLOPS/W 3 TFLOPS/W 1.55 TFLOPS/W 0.76 TFLOPS/W
FP8/INT8 5.49 T(FL)OPS/W 5.03 T(FL)OPS/W 6 T(FL)OPS/W 3.10 T(FL)OPS/W 1.53 T(FL)OPS/W
FP4 10.98 TFLOPS/W 10.06TFLOPS/W 12 TFLOPS/W 該当なし 該当なし

注: DGX B100 構成はないため、「HGX B100」の数値は、同じ熱および電力制約内で動作するように設計されたドロップイン交換品であるため、DGX H100 の最大消費電力 10.2kW に基づいています。

Blackwell の DGX B200 プラットフォームは Hopper よりも効率的ですが、空冷ではさらに収益が減少することがわかります。

CPU、メモリ、ネットワーク、ストレージをフル装備した空冷システムの効率を見ると、より大きなスタックを収容できる大型の 10U シャーシを使用しても、DGX B200 は HGX B100 よりも効率が低いことがわかります。 

一体何が起こっているのでしょうか?すでにご想像の通り、1,000W の冷却は 700W よりもはるかに難しく、特にヒートシンクに多くの空気を送り込むためにファンを高速回転させる必要があるため、その差はさらに大きくなります。

ラックレベルでは、Nvidiaの液冷式NVL72が最も効率的である。

120kW の電力を消費する Nvidia の電力消費量の多い GB200 NVL72 を追加すると、このことがよりよくわかります。 

ラックスケールでは、ラックあたり4台のDGXスタイルシステムと、1台のGB200 NVL72システムを比較しました。ここでもお馴染みの傾向が見られます。水冷システムのGPUはDGX B200よりも200Wも高温になるにもかかわらず、ラックスケールシステムは2.5倍のパフォーマンスを発揮しながら、消費電力は2倍強となっています。

グラフからは、液冷式 NVL システムが実際は最も効率的であることもわかります。これは、電力の 15 ~ 20 パーセントをファンに消費していないことに間違いなく起因します。

さらに、これらの数値には含まれていない冷媒分配ユニット (CDU) などの施設設備に電力を供給する必要がありますが、従来のシステムを冷却するために必要な空調設備も同様です。

ここで、データセンター運営者にとっての実際的な観点から、Blackwell が何を意味するのかについて結論を導き出すことができます。

NvidiaのHGXは依然として安全な賭けだ

NVLink スイッチは、従来、Blackwell HGX ボードなどの Nvidia の SXM キャリア ボードに統合されてきました。

Nvidia の最新 Blackwell HGX キャリア ボードが GTC24 で展示されました。 - クリックして拡大

NvidiaのBlackwell世代から得られる最大の教訓の一つは、電力と熱管理が重要であるということです。これらのチップにより多くの電力を供給し、より低温に保つことができればできるほど、パフォーマンスは向上します――ただし、ある程度までは。

あなたの施設が Nvidia の DGX H100 をサポートできるギリギリの状態であれば、B100 の管理はそれほど難しくないはずです。また、少なくとも当社の推定では、空冷システムの中では、より効率的なオプションであると思われます。

DGX B200はフルロード時の効率ではB100ほどではないかもしれませんが、それでもB100より28%高速です。チップが24時間365日、レッドラインぎりぎりまで動作することは滅多にない現実世界では、両者の性能差は理論上よりも近いかもしれません。

いずれの場合でも、Hopper と比べて計算密度が大幅に向上します。Blackwell の FP4 精度を活用できるかどうかに応じて、4 台の DGX B200 ボックスで 9~18 台の H100 システムを置き換えることができます。

より少ない、より高密度のラックが液冷の未来への道を示している

DGX B200の導入においてデータセンター事業者が直面する大きな課題の一つは、ラックの電力密度の高さです。ラックに4台のボックスを収容する場合、H100システムと比較して電力と冷却要件が約50%増加します。

データセンターがこれらの高密度構成をサポートできない場合、2ノードラックを選択せざるを得なくなり、Blackwell がもたらすスペース節約は事実上無駄になる可能性があります。モデルがそれ以上大きくならない場合、またはトレーニング時間を長くして Blackwell の大容量 192GB HBM3e を活用できる場合は、これは大きな問題ではないかもしれません。しかし、モデルが大きくなり、トレーニングや微調整のスケジュールが短縮された場合、これは大きな問題となる可能性があります。

GB200 NVL72 は、NVLink スイッチ アプライアンスを使用して 36 個の Grace-Blackwell Superchips を 1 つのシステムに統合するラックスケール システムです。

GB200 NVL72は、NVLinkスイッチアプライアンスを使用して36個のGrace-Blackwellスーパーチップを1つのシステムに統合するラックスケールシステムです。 - クリックして拡大

GB200 NVL72シリーズの場合は状況が少し異なります。22台以上のHGX H100システムを、この液冷システム1台に凝縮できます。言い換えれば、1つのモデルをサポートするのに必要なスペースで、5.5倍の規模のモデルをサポートできるということです。

そうは言っても、Blackwell の性能を最大限に引き出したいのであれば、液体冷却が必要になります。

良いニュースとしては、Equinix や Digital Realty など、Nvidia の DGX H100 システムのサポートを発表した多くのビット バーンが、すでに液体冷却形式 (通常はリア​​ ドア熱交換器を使用) を使用していることですが、DTC がより一般的になりつつあります。

これらのリアドア構成の中には、100キロワット以上の熱遮断能力を謳うものもあるため、理論的にはNVL72にこれらのうち1台を固定し、その熱をホットアイルに放出することも可能です。ただし、施設の空調設備がこれに対処できるかどうかは全く別の問題です。

そのため、私たちは、この密度のラックを冷却するには、液液 CDU が最適な手段になると考えています。

  • Nvidiaのソフトウェア担当役員カリ・ブリスキ氏がNIM、CUDA、AIのドッグフーディングについて語る
  • AIブームで原子力発電所近くの土地が人気不動産に
  • AIバブルであろうとなかろうと、NvidiaはGPU加速の未来にすべてを賭けている
  • 1ラック。120kWのコンピューティング能力。NVIDIAのDGX GB200 NVL72のモンスターを詳しく見てみよう

FLOPSだけではない

ジェンセン・フアン氏の基調講演では、ブラックウェルの推論性能に関してさらに大胆な主張がなされ、1.8兆パラメータの専門家混合モデルを推論する場合、ホッパー世代よりも30倍高速であると述べました。

Nvidiaは、NVL72は同等のH100セットアップと比較して推論ワークロードで最大30倍のパフォーマンスを発揮すると述べている。

Nvidiaは、NVL72は同等のH100セットアップと比較して推論ワークロードで最大30倍のパフォーマンスを発揮すると述べている - クリックして拡大

細かい部分を見てみると、これらの向上にはいくつかの要因が影響していることがわかります。FP4への低下により、NVIDIAの最高スペックのBlackwellチップは、FP8で動作するH100と比較して5倍のパフォーマンス向上を実現しています。

Blackwell はまた、1.4 倍の HBM を誇り、メモリ帯域幅が 1.38 倍になり、H100 の 3.35 TB/秒と比較して GPU あたり 8 TB/秒の速度を実現します。

しかし、FLOPSとメモリ帯域幅の増加だけでは、推論性能が30倍向上したことを説明するには不十分です。脚注にいくつかのヒントがあります。

Hopper構成では、各サーバーに8基のH100が搭載され、900GB/秒の高速NVLinkスイッチファブリックを介して相互通信できます。しかし、1兆8000億パラメータのモデルは1台のサーバーに収まりきりません。FP8では、このようなモデルには最低でも1.8TBのメモリに加え、キーバリューキャッシュ用の追加容量が必要になります。そのため、400Gb/秒のInfiniBandネットワークを介して相互通信するボックスがさらに必要になります。これは、GPUあたり合計100GB/秒の帯域幅に相当し、NVLinkと比較するとかなり大きなボトルネックとなります。

比較すると、NvidiaのNVLシステムでは、すべてのGPUが1.8TB/秒で相互接続されています。さらに、FP4演算精度を低くすることで、必要なメモリ容量が1.8TBから900GBへと半減し、帯域幅要件も削減されるため、理論的にはスループットが向上するはずです。

Nvidia の NVL システムは、1 兆を超える大規模なパラメータ モデルを実行する場合には有利かもしれませんが、1 つのボックスに収まるモデルの場合、Blackwell の Hopper に対する推論の優位性は大幅に小さくなるようです。

Nvidiaの推論性能が最終的にどれほど再現性を持つかはまだ不明ですが、セールスポイントは明確です。NVLラック1台で、システムの浮動小数点性能から想像するよりもはるかに多くのH100ノードを置き換えることができます。もちろん、1兆を超えるパラメータを持つモデルを大規模に推論する場合の話ですが。®

Discover More