SC24 Nvidia の最新の HPC および AI チップは、4 つの Blackwell GPU、144 個の Arm Neoverse コア、最大 1.3 テラバイトの HBM、そして驚異の 5.4 キロワット TDP を搭載した大規模なシングル ボード コンピューターです。
今週アトランタで開催されたスーパーコンピューティングで詳細が発表された、まったく新しい GB200 NVL4 フォーム ファクターは、多くの点で、Nvidia の今後発売予定の Grace-Blackwell スーパーチップ 2 つが組み合わされたように見えます。
しかし、以前取り上げた2.7キロワットのGB200ボードとは異なり、NVIDIAのNVL4構成に搭載されている高速NVLink通信は、ボード上の4基のBlackwell GPUと2基のGrace CPUに限定されています。ボードへの入出力はすべて、一般的なEthernetまたはInfiniBand NICによって処理されます。
GB200 NVL4は、基本的に2つのGB200スーパーチップを接着したもので、オフボードのNVLinkは除きます - クリックして拡大
これは奇妙な選択に思えるかもしれませんが、実際には多くのHPCシステムの構築方法と非常によく一致しています。例えば、Frontierに搭載されているCray EX Bladesは、第3世代Epyc CPU 1基とMI250Xアクセラレータ4基を搭載していました。
これはまた、HPE、Eviden、Lenovoなどの主要なHPCシステムビルダーが、スケールアップやスケールアウトにおいてNvidia独自のインターコネクトに制限されないことを意味します。HPEとEvidenはどちらも独自のインターコネクト技術を有しています。
実際、HPEは既に2025年後半に発売予定の新型EXシステムを発表しており、これはNVIDIAのGB200 NVL4ボードを採用する。先週発表されたEX154nは、大型の水冷式HPCキャビネットに、ブレードごとに1基ずつ、合計最大56基の超ワイドスーパーチップを搭載する。
この構成では、EXキャビネット1台で10ペタフロップスを超えるFP64ベクトル演算または行列演算を処理できます。これは大きな数値に聞こえるかもしれませんが、高精度な科学計算のみを重視するのであれば、HPEのAMDベースシステムはより高い浮動小数点演算性能を提供します。
Cray の EX255a ブレードに搭載されている MI300A APU は、Blackwell GPU の倍精度ベクトル/マトリックス性能が 45 teraFLOPS であるのに対し、ベクトル FP64 では 61.3 teraFLOPS、マトリックス FP64 では 122.6 teraFLOPS を誇ります。
AI中心のワークロードでは、MI300A 1台あたり3.9ペタFLOPSのスパースFP8性能を出力できるため、パフォーマンスの差は大幅に縮まります。つまり、EXキャビネットをフル装備した場合、約2エクサFLOPSのFP8性能が得られますが、BlackwellシステムはGPUの半分以下で約2.2エクサFLOPSを実現しています。MI300AがサポートしていないFP4データ型を活用できる場合は、その2倍の性能になります。
HPE Cray は Nvidia の NVL4 フォーム ファクターのサポートを最初に発表した企業の 1 つですが、Eviden、Lenovo などがこの設計に基づいた独自のコンピューティング ブレードやサーバーの展開を開始するまでにはそれほど時間はかからないと思われます。
H200 PCIe カードが NVL アップグレードを取得
Nvidia は、ダブルワイドの GB200 NVL4 に加え、PCIe ベースの H200 NVL 構成の一般提供も発表しました。
- NvidiaのMLPerf提出によると、B200はH100の最大2.2倍のトレーニングパフォーマンスを提供する。
- HPEはNvidiaのBlackwell GPUにCrayを採用し、1つのキャビネットに224個を詰め込んだ
- ダウ平均株価がインテルをNVIDIAに切り替え、AIの激しい変動から逃れられる指数はなくなる
- ジェンセン・フアンはSKハイニックスに対し、NVIDIAに12層HBM4チップを提供するよう要請した。
しかし、興奮しすぎる前に、2023 年初頭に登場した H100 NVL と同様に、H200 NVL は、本質的には、NVLink ブリッジで接着された一連の 2 倍幅の PCIe カード (今回は最大 4 枚) にすぎません。
Nvidia のより大規模な SXM ベースの DGX および HGX プラットフォームと同様に、この NVLink ブリッジにより、GPU はコンピューティング リソースとメモリ リソースをプールして、双方向帯域幅が NVLink の 900 GBps と比較して約 128 GBps に制限される低速の PCIe 5.0 x16 インターフェイスでボトルネックになることなく、より大きなタスクを処理できます。
H200 NVLは、最大564GBのHBM3eメモリと、スパース性を考慮した13.3ペタFLOPSのピークFP8性能をサポートします。繰り返しますが、これは4枚のH200 PCIeカードを超高速インターコネクトブリッジで接続しただけのシンプルな構成です。
しかし、そのパフォーマンスはすべて、消費電力と発熱を犠牲にして実現されています。4枚スタックのH200カード1枚あたりの定格電力は最大600W、合計で2.4キロワットです。
とはいえ、このアプローチには利点もあります。まず、これらのカードは、十分なスペース、電力、そして冷却に必要なエアフローがあれば、ほぼあらゆる19インチラックサーバーに導入できます。®