Nvidia の 120 kW NVL72 ラックは 72 基の Blackwell アクセラレータを搭載し、非常に計算密度が高いと思われていたとしても、HPE Cray の最新 EX システムには及びません。このシステムでは、1 つのキャビネットに 3 倍以上の GPU が搭載されています。
来週アトランタで開催されるスーパーコンピューティング・カンファレンスに先立ち発表されたCrayのEX154nプラットフォームは、キャビネット1台あたり最大224基のNVIDIA Blackwell GPUと8,064基のGrace CPUコアをサポートします。これは、HPCアプリケーションではFP64で10ペタフロップス強、通常は精度がそれほど重要ではないスパースAIおよび機械学習ワークロードではFP4で4.4エクサフロップス強に相当します。
1ラック。120kWのコンピューティング能力。NVIDIAのDGX GB200 NVL72のモンスターを詳しく見てみよう
続きを読む
具体的には、各EX154nアクセラレータブレードには、2.7kWのGrace Blackwellスーパーチップ(GB200)が2基搭載され、それぞれにBlackwell GPU 2基と72コアのArm CPU 1基が搭載されます。これら2つのスーパーチップは、NVIDIAのNVL4リファレンス構成によって相互接続されます。
ラックレベルでは、コンピューティングだけで 300 kW 以上を消費するため、過去の EX システムと同様に、HPE の Blackwell ブレードは液冷されることは言うまでもありません。
実際、これらのシステムは、全く新しいSlingshot 400ファミリーのEthernet NIC、ケーブル、スイッチに至るまで、完全にファンレスです。その名前が示すように、Slingshot 400は前モデルからの嬉しいアップグレードであり、帯域幅が200Gbpsから400Gbpsに向上し、現行世代のEthernetおよびInfiniBandネットワークと同等になっています。
HPE の前世代の Slingshot 200 インターコネクトは、大規模スーパーコンピューティング プラットフォームの主力となっており、Frontier、Aurora、Lumi などのマシンの中核を成しています。
残念ながら、Crayの超高密度Blackwellシステムと高速Slingshot 400ネットワークを手に入れたい方は、しばらくお待ちいただく必要があります。どちらも2025年後半まで出荷されない見込みです。
従来の CPU ベースの HPC がお好みであれば、Cray の第 5 世代 Epyc ベースの EX4252 Gen 2 コンピューティング ブレードが来春リリースされる予定で、キャビネットあたり最大 8 個の 192 コア Turin-C プロセッサを搭載し、合計 98,304 個のコアを備えることになります。
Crayは、アップグレードされたE2000ストレージシステムの出荷も開始します。同社によると、このシステムはPCIe 5.0ベースのNVMeストレージの高速化により、前世代と比べてI/Oパフォーマンスが2倍以上向上するとのことです。HPEは、これらのストレージアレイの出荷を2025年初頭から開始する予定です。
- The RegisterがAMDのRyzen 9800X3Dを試用
- ダウ平均株価がインテルをNVIDIAに切り替え、AIの激しい変動から逃れられる指数はなくなる
- 富士通とAMD、Monaka CPUとInstinct GPUの組み合わせに向けた準備を進める
- xAIはH100 ColossusトレーニングクラスタにInfiniBandではなくEthernetを採用した。
HPEのCray EXプラットフォームは、一般的なサーバーやラックよりも高い密度を約束していますが、平均的なデータセンターに導入できるシステムではありません。そこでHPEは、エンタープライズ向けのiLO Lights-Out Management System(LMS)を搭載した、新しい空冷式ProLiant Computeサーバー2台もリリースします。
これらのシステムは、選択した 8 つのアクセラレータをサポートする XD680 サーバーと XD685 サーバーの両方を備えた Nvidia HGX プラットフォームを見たことがある人にとってはかなり馴染み深いものになるでしょう。
驚くべきことに、ご想像の通り、NVIDIAとAMDのGPUだけに限定されているわけではありません。XD680には、合計1TBのHBM2eを搭載したIntel Gaudi3アクセラレータが8基標準搭載されています。春にお伝えしたように、Gaudi3は現行のアクセラレータの中でもかなり競争力があります。各アクセラレータは1.8ペタFLOPSの高密度BF16パフォーマンスを発揮し、H100、H200、AMDのMI300Xよりも演算負荷の高いワークロードにおいて優位性を発揮します。
HPEのXD685にアップグレードする場合、合計1.1TBのHBM3eを搭載した8基のNvidia H200か、メモリ容量が1.5TBに増強される予定のBlackwell GPU(おそらくB200)のいずれかを選択できます。前者は2025年初頭の発売が予定されていますが、Blackwellベースのシステムの発売時期はまだかなり不透明です。
Nvidiaが好みではない、あるいはメモリ容量が足りないという方のために、HPEはAMDが新たに発表したMI325Xを搭載したシステムも提供しています。10月にアクセラレータと同時に発表されたこのシステムは、最大2TBのHBM3eメモリを搭載し、2025年第1四半期に出荷予定です。®