AMDのMI355Xは、NvidiaのBlackwellに対抗するために作られた1.4kWの液冷モンスターです。

Table of Contents

AMDのMI355Xは、NvidiaのBlackwellに対抗するために作られた1.4kWの液冷モンスターです。

Nvidia の Blackwell アクセラレータは市場に登場してからわずか 6 か月余りですが、AMD は木曜日に MI350 シリーズ GPU を発売して、すでに同等の性能を達成したと述べています。

まったく新しい CDNA 4 と改良されたチップレット アーキテクチャをベースにしたこれらの GPU は、MI355X で最大 10 petaFLOPS のスパース FP4 (スパース性を活用できるワークロードが見つかればその 2 倍)、288 GB の HBM3E、8 TBps のメモリ帯域幅を誇り、AI インフラストラクチャ市場における Nvidia の支配を揺るがすことを目指しています。

スコアをつけて言うと、AMD の最新の Instinct は、AI のトレーニングと推論に関して最も重要な 2 つの指標である浮動小数点パフォーマンスとメモリ帯域幅において、Nvidia の最も強力な Blackwell GPU に匹敵することを目指しています。

これはAMDのベンチマーク結果にも反映されており、MI355X 2基がLlama 3.1 405BでNvidiaのデュアルGPU GB200 Superchipと互角に戦っています。ただし、ベンダーが提供する他のベンチマーク結果と同様に、これらの結果は鵜呑みにしないようご注意ください。

AMDのMI350シリーズ部品の簡単な概要は以下のとおりです。

AMDのMI350シリーズ部品の簡単な概要は以下のとおりです - クリックして拡大

実際、少なくとも理論上は、AMDの最新チップは、今春発表されたNvidiaの288GB Blackwell Ultra GPUとそれほど差がありません。これらのチップが来四半期に出荷開始されると、メモリ容量の差が縮まるだけでなく、高密度FP4ではAMDのMI350シリーズと比較して最大50%高いパフォーマンスを発揮します。FP8、FP16、BF16では、AMDとNvidiaは互角の勝負を繰り広げています。

熱について言えば、1.4kW では、MI355X のテンソル コアを制御し、その潜在能力を最大限に発揮するには、液体冷却ループが必要になります。

液冷が現実的でない方のために、AMDはMI350Xも提供しています。こちらはピークパフォーマンスの約8%を犠牲にして、TDPはややリーズナブルな1kWです。しかし、実際には、液冷パーツの電力制限が高いため、より長時間、より高いブースト性能を維持できるため、パフォーマンス差は実際には20%近くになると言われています。

それでは、AMD の最新 Instinct を動かすシリコンを詳しく見てみましょう。

AMDの次世代シリコンサンドイッチを分析

どちらかのチップのヒートスプレッダーを剥がすと、高帯域幅のメモリに囲まれた、おなじみのコンピューティングダイの組み合わせが見つかります。

MI350シリーズのベアシリコンは、素人目にはNvidiaのBlackwellやIntelのGaudi3に酷似しているように見えます。まさに2025年のAIアクセラレータの姿と言えるでしょう。しかし、よくあることですが、見た目は誤解を招く可能性があり、AMDのInstinctシリーズもまさにその例外ではありません。

AMD の Instinct アクセラレータは、Intel や Nvidia のアクセラレータに見られる 2 つのレチクル サイズのコンピューティング ダイではなく、TSMC の 2.5D パッケージングと 3D ハイブリッド ボンディング テクノロジを組み合わせて、複数の小さなコンピューティングおよび I/O チップレットを 1 つの大きなシリコン サブシステムに統合します。

AMDのMI350シリーズGPUは、I/Oペアの上に積み重ねられた8つのXCD GPUタイルと、合計288GBの容量を持つ8つのHBM3Eモジュールを搭載しています。

AMDのMI350シリーズGPUは、2つのI/Oの上に積み重ねられた8つのXCD GPUタイルと、合計288GBの容量を持つ8つのHBM3Eモジュールを備えています(クリックして拡大)

MI350シリーズの場合、2023年に登場したオリジナルのMI300Xと非常によく似ています。TSMCの3nmプロセス技術を使用して製造された8つのXCD GPUダイが、2つの6nm I/Oダイの上に垂直に積み重ねられています。

各コンピューティング チップレットには現在 36 個の CDNA 4 コンピューティング ユニット (CU) が搭載されており、そのうち 32 個が実際にアクティブで、4 MB の共有 L2 キャッシュによってサポートされています。8 つのチップレット全体で合計 256 個の CU があり、チップの 288 GB の HBM3E メモリは 256 MB の「Infinity」キャッシュによってサポートされています。

AMDのMI350シリーズチップのレイアウトを詳しく見てみましょう

AMDのMI350シリーズチップのレイアウトを詳しく見てみましょう。クリックして拡大します。

一方、I/O ダイ間でデータをシャトルするために使用される Infinity Fabric-Advanced Package 相互接続は、前世代の 2.4 TBps ~ 3 TBps から 5.5 TBps の二分帯域幅にアップグレードされました。

AMD フェローであり Instinct SoC のチーフアーキテクトであるアラン・スミス氏によると、この幅広い相互接続により、チップ間通信に必要なビットあたりのエネルギー量が削減されました。

高密度スケールアウト展開

AMD の GPU は Nvidia の Blackwell アクセラレータとのパフォーマンスの差は縮まったかもしれないが、システム設計の面ではまだ長い道のりが残っている。

ラックスケール、HGX、PCIe フォーム ファクターで購入できる Nvidia の Blackwell アクセラレータとは異なり、AMD の MI350 シリーズは 8 GPU 構成でのみ提供されます。

「この直接接続された8GPUアーキテクチャは、2025年から2026年にかけて登場する多くのモデルにとって依然として有利な位置にあると感じました」と、AMDのコーポレートバイスプレジデント、ジョシュ・フリードリッヒ氏は木曜日に開催された「Advancing AI」イベントに先立ち、報道陣に語った。「独自のラック型アーキテクチャに革新的な変更を導入すること、そしてそれを時期尚早に導入することで生じる可能性のある課題は避けたいと考えていました。」

  • 中国がAMDと提携したx86スーパーコンピューティングモンスターを生み出す
  • AMD、Threadripper Pro 9000ハイエンドデスクトップチップでインテルをバックミラーに追いやる
  • Nvidiaはx86をまだ使い続け、GPUの監視にIntel Xeonを採用
  • エヌビディア、AIスーパーと野心に満ちた工場を台湾に設立

下の図からわかるように、この設計では8つのMI350シリーズチップがAMDのInfinity Fabricを介してAll-to-Allスケールアップトポロジーで接続されています。GPUは、PCIe 5.0スイッチを介して2つのx86 CPUと最大8つの400Gbps NICに接続されます。

AMDのMI350シリーズGPUは、8つのGPUと同数の400Gbps NIC、そして2つのx86 CPUを組み合わせた、かなり標準的な構成となっている。

AMDのMI350シリーズGPUは、8つのGPUと同数の400Gbps NIC、そして2つのx86 CPUという標準的な構成を採用している(クリックして拡大)

各システムは、最大 2.25 TB の HBM3E メモリと、液体冷却または空冷の選択に応じて 147 ~ 160 ペタフロップスのスパース FP4 コンピューティングを提供します。

当然のことながら、AMDはInstinctアクセラレータを自社のEpyc CPUとPensando Pollara 400 NICと組み合わせることを望んでいますが、ベンダーがIntelプロセッサやConnectX InfiniBandネットワークを基盤としたシステムを構築することを妨げるものは何もありません。実際、MicrosoftはND-MI300X-v5インスタンスでまさにこの構成を採用しています。

MI350シリーズの発売により、AMDはラックへの高密度実装へと移行しています。GPUの消費電力が増加するにつれ、サーバーシャ​​ーシの大型化が進み、ラックユニットサイズが10ユニットにまで拡大するケースも見られます。しかし、液冷への移行により、AMDはラックあたり16ノード、アクセラレーター128基という高密度実装を見込んでいます。

AMDは、液体冷却への移行により、MI355Xアクセラレータを1つのラックに最大128個詰め込むことが可能になったと述べている。

AMDは、液体冷却への移行により、MI355Xアクセラレータを1つのラックに最大128個詰め込むことが可能になったと述べている(クリックして拡大)

AMD はシステムレベルの電力消費量について詳細を明らかにしていないが、Nvidia の HGX システムから判断すると、どちらも 14 ~ 18 kW の間の電力を消費すると予想されている。

空冷式の場合でも、AMD は最大 8 つのノードと 64 個のアクセラレータを備えたラックが登場すると予想しており、そのためにはほぼ確実に背面ドアの熱交換器の使用が必要になるでしょう。

これらのより高いラック密度は、来年 MI400 シリーズ チップとともに発売される予定の AMD 初のラック スケール システムの方向性を決定します。

可用性

AMDは、MI350シリーズ アクセラレータが顧客に出荷されており、131,072個のアクセラレータを含むOracle OCIのAIコンピューティング クラスタを含む、クラウドおよびハイパースケール データセンターでの大規模な導入が見込まれると述べています。

私たちの推定によれば、完成したシステムは、AMD の MI355X が実現できる最も疎な FP4 コンピューティングの 2.6 zettaFLOPS 以上を処理できるようになります。

一方、オンプレミスでの導入を検討している方には、Dell、HPE、Supermicro から MI350 シリーズ システムが提供される予定です。®

Discover More