ママ、InifiniBandがないよ: NvidiaのDGX GH200はNVLinkで256個のスーパーチップを結合

Computex Nvidia は台北で開催されている Computex で、NVLink だけを使用して 256 個の Grace-Hopper スーパーチップを統合して「AI スーパーコンピュータ」を作成した最新のトリックを公開しました。

DGX GH200 と呼ばれるこのキットは、自然言語処理 (NPM) 推奨システムやグラフニューラルネットワーク向けのメモリ集約型 AI モデル向けに調整された単一システムとして提供されます。

CEOのジェンスン・フアン氏の基調講演に先立つ記者会見で、幹部らはGH200を、同社が最近発表したDGX H100サーバーと比較しました。DGX H100は、最大500倍のメモリ容量を誇ると謳っています。しかし、この2つは全く異なる点があります。DGX H100は、デュアルIntel Xeon、8基のH100 GPU、そしてほぼ同数のNICを搭載した8Uシステムです。一方、DGX GH200は、オールNVIDIAアーキテクチャに基づく24ラック構成のクラスターサーバーであるため、厳密に比較できるわけではありません。

このスーパーシステムの中核を成すのは、NVIDIAのGrace-Hopperチップです。2022年3月のGTCイベントで発表されたこのハードウェアは、72コアのArm互換Grace CPUクラスターと512GBのLPDDR5Xメモリ、そしてNVIDIAの900GBps NVLink-C2Cインターフェースを搭載した96GBのGH100 Hopper GPUダイを統合しています。この次世代コンピューティングアーキテクチャについておさらいしたい場合は、姉妹サイトThe Next Platformでこのチップの詳細をご覧ください。

NVIDIAのアクセラレーテッドコンピューティング担当副社長イアン・バック氏によると、DGX GH200は16台のコンピューティングラックで構成され、各ラックにはスーパーチップを搭載した16ノードが搭載されています。DGX GH200プラットフォームは合計18,432個のコア、256個のGPU、そして144TBの「統合」メモリを誇ります。

一見すると、メモリに格納する必要がある非常に大規模なモデルを実行したい人にとっては朗報です。以前お伝えしたように、LLMは大量のメモリを必要としますが、今回の場合、144TBという数字は少し誇張されているかもしれません。そのうち、モデルパラメータの保存に通常使用される超高速HBM3は約20TBです。残りの124TBはDRAMです。

ワークロードがGPUのvRAMに収まらない場合、通常ははるかに低速なDRAMに処理が集中し、PCIeインターフェース経由でファイルをコピーする必要があるため、さらにボトルネックが発生します。これは明らかにパフォーマンスにとって好ましいことではありません。しかし、NVIDIAは、0.5テラバイト/秒の帯域幅を誇る非常に高速なLPDDR5Xメモリと、PCIeではなくNVLinkを組み合わせることで、この制限を回避しているようです。

本日台湾で開催されたCOMPUTEX 2023カンファレンスで、NVIDIAのジェンスン・フアンCEOは、Grace-Hopperを同社のH100mega-GPUと比較しました。フアンCEOは、H100がGrace-Hopperよりも高性能であることを認めつつも、Grace-HopperはH100よりもメモリ容量が大きいため、より効率的であり、多くのデータセンターへの適用性が高いと指摘しました。

「これをDCに導入すれば、AIをスケールアウトできる」と彼は語った。

すべてを接着する

この点に関して、NVIDIAはNVLinkをGPU間通信だけでなく、システムの256ノード間の連携にも活用しています。NVIDIAによると、これにより、ネットワークのボトルネックを回避しながら、非常に大規模な言語モデル（LLM）をシステムの256ノードに分散配置できるようになるとのことです。

NVLink を使用する際の欠点は、少なくとも現時点では 256 ノードを超える拡張ができないことです。つまり、より大規模なクラスターでは、InfiniBand や Ethernet などの技術を検討する必要があるということです。これについては後ほど詳しく説明します。

この制限にもかかわらず、Nvidia は、InfiniBand を使用する従来の DGX H100 のクラスターと比較して、自然言語処理、推奨システム、グラフニューラルネットワークなどのさまざまなワークロードでかなり大幅な高速化が実現できると主張しています。

NVIDIAによると、DGX GH200クラスター1台で約1エクサフロップスのピーク性能を実現できるとのことです。純粋なHPCワークロードでは、性能ははるかに低くなります。NVIDIAのアクセラレーテッドコンピューティング部門の責任者は、GPUのテンソルコアを活用したFP64ワークロードのピーク性能を約17.15ペタフロップスと見積もっています。

同社が LINPACK ベンチマークでこれの相当な部分を達成できれば、単一の DGX GH200 クラスターが最速スーパーコンピューターのトップ 50 にランクインすることになるだろう。

NvidiaのGPUが工場から飛び出し、また工場に戻ってくる
インテル、CPU、GPU、メモリを1つのパッケージに詰め込むXPU計画を断念
マイクロソフト、Azureクラウドで機械学習をさらに活用
液体冷却と液浸冷却に関しては、Nvidia は次のように問いかけます。「なぜ両方ではないのか?」

熱がデザインを左右する

Nvidia は熱管理や電力消費に関する私たちの質問に答えなかったが、クラスターのコンピューティング密度と対象ユーザーを考慮すると、空冷システムを検討していることはほぼ間違いないだろう。

同社が検討している液体冷却や浸漬冷却を採用しなくても、Nvidia はクラスターをはるかにコンパクトにできたはずだ。

昨年のComputexで、NVIDIAはツインGrace-Hopperスーパーチップブレードを搭載した2U HGXリファレンスデザインを披露しました。このシャーシを使用すれば、256個のチップすべてを8つのラックに収めることができたはずです。

NVIDIAがこれを敬遠したのは、データセンターの電力と冷却の制約が原因だと推測されます。NVIDIAの顧客は依然としてデータセンターにクラスタを導入する必要があり、大規模なインフラ変更が必要になった場合、販売は困難になるでしょう。

NVIDIAのGrace-Hopperチップだけでも約1キロワットの電力を消費します。つまり、マザーボードやネットワークの消費電力を考慮に入れなければ、コンピューティングだけでラック1台あたり約16キロワットの冷却が必要になります。これは、6～10キロワットのラックの冷却に慣れている多くのデータセンター事業者にとっては既にかなりの量ですが、少なくとも許容範囲内です。

クラスタがユニット単位で販売されていることを考えると、DGX GH200の導入を検討している顧客は、熱管理と消費電力も考慮していると考えられます。NVIDIAによると、Meta、Microsoft、Googleはすでにこのクラスタを導入しており、一般提供は2023年末までに予定されています。

ジェンセン・フアンがComputex 2023のステージでグレースホッパーとDH200を発表

ジェンセン・フアンがComputex 2023のステージでDH200を発表。もっと良いカメラを持ってくるべきだった - クリックして拡大

Heliosによるスケールアウト

先ほど、DGX GH100 を 256 ノード以上にスケールアウトするには、顧客はより従来型のネットワーク方式に頼る必要があると述べましたが、これはまさに Nvidia が近々発売する Helios「AI スーパーコンピュータ」で実証しようとしていることです。

現時点では詳細はほとんど不明ですが、Helios は基本的に、同社の 400Gbps Quantum-2 InfiniBand スイッチを使用して結合された 4 つの DGX GH200 クラスターのようです。

スイッチの話が出たところで、COMPUTEXでHuang氏はSPECTRUM-4を発表しました。これは、イーサネットとInfiniBandを融合し、400GB/秒のBlueField 3 SmartNICを搭載した超大型スイッチです。Huang氏によると、このスイッチと新しいSmartNICを組み合わせることで、AIトラフィックがデータセンター内をCPUをバイパスして流れるようになり、ボトルネックを回避できるとのことです。Registerでは、詳細が分かり次第追ってお知らせします。

Heliosは年末までに稼働開始予定です。NVIDIAはFP8におけるAI性能を重視していますが、このシステムはピーク性能で約68ペタフロップスを実現できる見込みです。これは、先週時点でTop500ランキング12位につけているフランスのAdastraシステムとほぼ同等の性能となります。®

- サイモン・シャーウッドと。

ママ、InifiniBandがないよ: NvidiaのDGX GH200はNVLinkで256個のスーパーチップを結合