1ラック。120kWのコンピューティング能力。NVIDIAのDGX GB200 NVL72のモンスターを詳しく見てみよう

Table of Contents

1ラック。120kWのコンピューティング能力。NVIDIAのDGX GB200 NVL72のモンスターを詳しく見てみよう

NVIDIAは月曜日、 GTCでこれまでで最もパワフルなDGXサーバーを発表しました。120kWのラックスケールシステムは、NVLinkを用いて72基の新型Blackwellアクセラレータを統合し、実質的に1つの巨大なGPUを構成します。FP4精度で1.4エクサフロップス以上の性能を発揮します。

今週の GTC では、ラック スケール システムを詳しく見る機会がありました。Nvidia によると、このシステムは大規模なトレーニング ワークロードをサポートできるほか、最大 27 兆個のパラメータを持つモデルでの推論も可能とのことですが、今のところそこまで大きなモデルは存在しません。

Nvidia の DGX GB200 NVL72 は、NVLink を使用して 72 個の Blackwell アクセラレータを 1 つの大きな GPU に統合するラック スケール システムです。

Nvidia の DGX GB200 NVL72 は、NVLink を使用して 72 個の Blackwell アクセラレータを 1 つの大きな GPU に統合するラック スケール システムです (クリックして拡大)

DGX GB200 NVL72と名付けられたこのシステムは、NVIDIAが11月に発表したGrace-Hopperスーパーチップ搭載ラックシステムの進化版です。ただし、GPUの搭載数は2倍以上となっています。

コンピューティングのスタック

1.36 メートルトン (3,000 ポンド) のラック システムは 1 つの大型 GPU として販売されていますが、実際には 18 個の 1U コンピューティング ノードから構成されており、各ノードには Nvidia の 2,700W Grace-Blackwell Superchips (GB200) が 2 個搭載されています。

Here we see two GB200 Superchips, minus heatspreaders and cold plates in a 1U liquid cooled chassis

ここでは、1U 液冷シャーシにヒートスプレッダーとコールドプレートを除いた 2 つの GB200 スーパーチップが示されています (クリックして拡大)

GB200 の詳細については、当社の発売日レポートでご覧いただけますが、簡単に言うと、この巨大なパーツは、Nvidia の 900GBps NVLink-C2C 相互接続を使用して、72 コアの Grace CPU と 2 つの最高仕様の Blackwell GPU を組み合わせています。

各スーパーチップは合計864GBのメモリ(LPDDR5x 480GBとHBM3e 384GB)を搭載し、NVIDIAによると、40ペタFLOPSのスパースFP4演算性能を発揮します。つまり、各計算ノードは80ペタFLOPSのAI演算を生成でき、ラック全体では1.44エクサFLOPSの超低精度浮動小数点演算を実行できることになります。

Nvidia's Grace-Blackwell Superchip, or GB200 for short, combines a 72 Arm-core CPU with a pair of 1,200W GPUs.

NvidiaのGrace-Blackwellスーパーチップ(略してGB200)は、72個のArmコアCPUと2個の1,200W GPUを組み合わせたものです(クリックして拡大)

システムの前面には、コンピューティングネットワークを構成する4つのInfiniBand NIC(シャーシ前面の左側と中央にある4つのQSFP-DDケージに注目)が搭載されています。また、ストレージネットワークとの通信を担うBlueField-3 DPUも搭載されています。

シャーシには、いくつかの管理ポートに加えて、4 つの小型フォーム ファクター NVMe ストレージ キャディも搭載されています。

The NVL72's 18 compute nodes come as standard with four Connect-X InfiniBand NICs and a BlueField-3 DPU.

NVL72の18個のコンピューティングノードには、4つのConnect-X InfiniBand NICとBlueField-3 DPUが標準装備されています(クリックして拡大)

GB200スーパーチップ2基とNIC5基を搭載し、各ノードの消費電力は1台あたり5.4kWから5.7kWと推定されます。この熱の大部分は、チップ直結型(DTC)の液体冷却によって排出されます。NVIDIAがGTCで披露したDGXシステムにはコールドプレートが搭載されていませんでしたが、パートナーベンダーのプロトタイプシステムをいくつか拝見しました。例えば、Lenovoのシステムです。

While the GB200 systems Nvidia had on display didn't have coldplates installed, this Lenovo prototype shows what it might look like in production

Nvidiaが展示したGB200システムにはコールドプレートは搭載されていませんでしたが、このLenovoのプロトタイプは生産時にどのようになるかを示しています(クリックして拡大)

しかし、すべてを液体で冷却する HPE Cray や Lenovo の Neptune 製品ラインなどの HPC 中心のノードとは異なり、Nvidia は、従来の 40mm ファンを使用して NIC やシステム ストレージなどの低電力周辺機器を冷却することを選択しました。

すべてをつなぎ合わせる

基調講演で、CEOでありレザージャケット愛好家でもあるジェンセン・フアン氏は、NVL72を「巨大なGPU」と表現しました。これは、18基の超高密度コンピューティングノードすべてが、ラックのど真ん中に配置された9基のNVLinkスイッチスタックによって相互接続されているためです。

In between the NVL72's compute nodes are a stack of nine NVLink switches, which provide 1.8 TBps of bidirectional bandwidth each of the systems 72 GPUs.

NVL72のコンピューティングノードの間には、システムの72個のGPUそれぞれに1.8 TBpsの双方向帯域幅を提供する9個のNVLinkスイッチのスタックがあります(クリックして拡大)

これは、NVIDIAのHGXノードが8つのGPUを1つのGPUとして動作させるために採用した技術と同じです。ただし、NVL72では、下に示すBlackwell HGXのようにNVLinkスイッチがキャリアボードに組み込まれているのではなく、スタンドアロンのアプライアンスとなっています。

The NVLink switch has traditionally been integrated into Nvidia's SXM carrier boards, like the Blackwell HGX board.

NVLinkスイッチは、ここに示すBlackwell HGXボードのようなNvidiaのSXMキャリアボードに従来統合されています(クリックして拡大)

これらのスイッチアプライアンスには、NVIDIAのNVLink 7.2T ASICが2基搭載されており、合計144個の100GBpsリンクを提供します。ラックあたり9個のNVLinkスイッチを使用すると、ラック内の72個のGPUそれぞれに1.8TBps(18リンク)の双方向帯域幅が提供されます。

Shown here are the two 5th-gen NVLink ASICS found in each of the NVL72's nine switch sleds.

ここに示されているのは、NVL72 の 9 つのスイッチ スレッドのそれぞれに搭載されている 2 つの第 5 世代 NVLink ASIC です (クリックして拡大)

NVLinkスイッチとコンピューティングスレッドはどちらも、3.2km(2マイル)を超える銅線ケーブルで結線されたブラインドメイトバックプレーンに差し込まれています。ラックの背面から覗くと、GPUをメッシュ状に繋ぎ、一体となって機能させる巨大なケーブル束がぼんやりと見えます。

If you look closesly, you can see the massive bundle of cables that form the rack's NVLink backplane.

よく見ると、ラックのNVLinkバックプレーンを形成する大量のケーブル束が見える(クリックして拡大)

光ファイバーではなく銅線ケーブルを使用するという決定は、特に私たちが話している帯域幅の量を考慮すると奇妙な選択のように思えるかもしれませんが、どうやら光ファイバーをサポートするために必要なすべてのリタイマーとトランシーバーは、システムのすでに膨大な電力消費にさらに 20kW を追加していたようです。

これは、ケーブルの長さを最小限に抑えるために、NVLink スイッチ スレッドが 2 つのコンピューティング バンクの間に配置されている理由を説明している可能性があります。

  • Nvidia: チャットボットをいくつかつなげて作れるのに、なぜコードを書く必要があるのでしょうか?
  • Nvidia、1,200W Blackwell GPUでAIの熱を高める
  • クラウドではなくPCでLLMを10分以内で実行する方法
  • Oxide はプライベート クラウドを 2,500 ポンドのブレード サーバーとして再構想しました。

電力、冷却、管理

ラックの最上部には、52ポートのSpectrumスイッチが2台あります。48個のギガビットRJ45ポートと4個のQSFP28 100Gbpsアグリゲーションポートです。これらのスイッチは、システムを構成する様々なコンピューティングノード、NVLinkスイッチスレッド、電源シェルフからの管理とテレメトリのストリーミングに使用されているようです。

At the top of the NVL72, we find a couple of switches and three of six powershelves.

NVL72の上部には、スイッチが2つと電源シェルフが6つのうち3つあります(クリックして拡大)

これらのスイッチのすぐ下には、NVL72の前面から見える6つの電源シェルフのうちの最初の1つがあります。ラックの上部に3つ、下部に3つあります。120kWのラックに電力を供給する役割を担っていること以外、これらについてはあまり知られていません。

推定によると、415V、60Aの電源ユニットを6台搭載すれば十分でしょう。ただし、おそらくNvidiaまたはそのハードウェアパートナーは、設計にある程度冗長性を組み込んでいると思われます。そのため、これらの電源ユニットは60Aを超える電流で動作している可能性があります。Nvidiaに電源シェルフの詳細を問い合わせており、判明次第お知らせします。

どのような方法であれ、電力はラック背面を走るハイパースケールサイズのDCバスバーによって供給されます。よく見ると、ラックの中央を走るバスバーがかすかに見えます。

According to CEO Jensen Huang, coolant is designed to be pumped through the rack at 2 liters per second.

CEOのジェンセン・フアン氏によると、冷却剤はラックを通して毎秒2リットルの速度で送り込まれるように設計されているとのことだ(クリックして拡大)

もちろん、120kWのコンピューティング能力を冷却するのは決して容易ではありません。しかし、チップの発熱が高まり、コンピューティング需要が高まるにつれて、Digital RealtyやEquinixをはじめとする多くのビットバーンが、高密度HPCおよびAI環境へのサポートを拡大しています。

NVIDIAのNVL72の場合、コンピューティングスイッチとNVLinkスイッチの両方が液冷式です。Huang氏によると、冷却液は25℃でラックに毎秒2リットル流入し、20℃高い温度で排出されます。

スケールアウト

DGX GB200 NVL72 の 13.5 TB の HBM3e と 1.44 エクサフロップスのスパース FP4 で十分でない場合は、これら 8 つをネットワーク接続して、576 個の GPU を備えた 1 つの大きな DGX Superpod を形成できます。

Eight DGX NVL72 racks can be strung together to form Nvidia's liquid cooled DGX GB200 Superpod.

8 台の DGX NVL72 ラックを連結すると、Nvidia の液冷式 DGX GB200 Superpod を構成できます (クリックして拡大)

大規模なトレーニングワークロードをサポートするためにさらに多くのコンピューティング能力が必要な場合は、Superpodを追加してシステムをさらにスケールアウトできます。これはまさにAmazon Web ServicesがProject Ceibaで行っていることです。11月に最初に発表されたこのAIスーパーコンピュータは、現在、NvidiaのDGX GB200 NVL72をテンプレートとして使用しています。完成すると、このマシンは20,736個のGB200アクセラレータを搭載すると報じられています。しかし、このシステムの特徴は、NvidiaのInfiniBandやイーサネットキットではなく、AWS独自のElastic Fabric Adapter(EFA)ネットワークを採用することです。

Nvidia 社は、ラック スケール システムを含む Blackwell の部品が今年後半に市場に投入される予定であると述べています。®

Discover More