AMDは、NvidiaのH200に対抗するために構築された288GBのAIアクセラレータMI325Xを発表した。

Computex AMD の主力 AI アクセラレーターは、今年後半に MI325X が発売され、高帯域幅のブーストを受ける予定です。

この発表は、AMD が Nvidia のパターンに倣い、「Instinct」シリーズのアクセラレータを毎年リリースするサイクルに移行する中で行われた。

Instinct MI325Xは、少なくとも私たちが知る限りでは、2023年12月に開催されたAMDのAdvancing AIイベントで詳細に説明したGPUのHBM3e強化版という点で、NvidiaのH200によく似ています。しかし、このパーツは、2.5Dと3Dのパッケージング技術を組み合わせてつなぎ合わせた8つのコンピューティング、4つのI/O、および8つのメモリチップレットで構成されており、これまでで最も洗練されたものの1つです。

AMD MI325Xアクセラレータ半蓋

AMDのMI325Xアクセラレータの半蓋 – クリックして拡大

これまでのところ、次期チップに搭載されるCDNA 3 GPUタイルは、少なくともFLOPSの点では、大きな変化は見られません。このチップは、高密度BF/FP16で依然として1.3ペタFLOPS、FP8に落とした場合には2.6ペタFLOPSの性能を誇ります。ちなみに、MI325Xはどの精度においてもH200よりも高速です。

AMDは、NVIDIAに対するメモリの優位性をさらに強化することに注力しているようだ。発売当初、192GBのMI300XはH100のHBM3の2倍以上、そして近日発売予定のH200に対して51GBの優位性を誇っていた。MI325Xでは、アクセラレータの容量が288GBに増強され、H200の2倍以上、そして今春のGTCで発表されたNVIDIAのBlackwellチップよりも50%も大きい。

HBM3eへの移行により、MI325Xのメモリ帯域幅は6TB/秒に向上しました。MI300Xの5.3TB/秒からはかなりの向上で、H200の1.3倍ですが、NVIDIAのBlackwell GPUのように、8TB/秒に近い数値を期待していました。

残念ながら、メモリ構成がどうなるかを知るには、MI325X が今年後半に登場するまで待たなければなりません。

精度の問題ですか?

メモリ容量と帯域幅は、AI推論における大きなボトルネックとなっています。これまで何度も議論してきたように、8ビット精度で動作させる場合、10億個のパラメータごとに約1GBのメモリが必要です。そのため、MI325X 1台に2,500億個のパラメータを詰め込むことも可能です。あるいは、8GPUシステムであれば2T倍近い10億個のパラメータモデルを詰め込むことも可能です。それでも、キー値キャッシュ用のスペースは確保できます。

ところが、Computexに先立つ説明会で、AMD幹部はMI325Xシステムが1兆個のパラメータモデルをサポートできると豪語していました。一体何が起こっているのでしょうか？AMDは依然としてFP16に注力しており、FP16はパラメータあたりFP8の2倍のメモリを必要とします。

AMD MI325Xアクセラレータ半蓋

再び、完全に露出した状態です。クリックして拡大

MI300X発売当初、FP8のハードウェアサポートが大きなセールスポイントであったにもかかわらず、AMDはベンチマークでは概して半精度性能に重点を置いてきました。そして昨年末、AMDのベンチマークの正確性をめぐってNVIDIAと論争が繰り広げられた際に、その理由が分かりました。AMDは多くのベンチマークでvLLM（推論ライブラリ）に依存していますが、vLLMはFP8データ型をしっかりとサポートしていませんでした。つまり、MI300Xは推論においてFP16しか使えないという状況でした。

AMDがこの制限を克服しない限り、H200でFP8で動作するモデルはMI325Xの2倍のメモリを必要とすることになり、288GBという大容量がもたらすはずのアドバンテージが失われてしまう。さらに、H200はFP8でMI325XのFP16よりも高い浮動小数点演算性能を誇ることになる。

もちろん、これは同一条件での比較ではありません。しかし、モデルをできるだけ少ないGPUで実行することが主な目的であり、精度を下げるだけでなく、浮動小数点スループットを2倍にできるのであれば、そうしない理由はないでしょう。

競争環境は激化

とはいえ、トレーニングと推論においてFP/BF16データ型を使い続けることには、依然として一定のメリットがあります。Gaudi3で見られたように、IntelのHabana Labsは実際には16ビットパフォーマンスを優先していました。

今春初めに発表されたGaudi3は、192GBのHBM2eメモリと、高密度FP8およびFP16で1.8ペタFLOPSの処理能力を持つデュアルダイ設計を誇ります。これにより、H100/200に対して1.85倍、MI300X/325Xに対して1.4倍の性能差を実現しています。

唯一の注意点は、Guadi3はスパース性をサポートしていないのに対し、NvidiaとAMDのチップはサポートしているということです。しかし、AMDとIntelが共に高密度浮動小数点演算の性能に重点を置いているのには理由があります。それは、スパース性が実際にはそれほど一般的ではないからです。

もちろん、必ずしもそうとは限りません。スパースモデルの学習には、特にNVIDIAとウェハスケールの競合企業であるCerebrasを中心に、相当な努力が費やされてきました。少なくとも推論に関しては、スパース浮動小数点演算のサポートは、最終的にはAMDとNVIDIAにとって有利に働くかもしれません。

Nvidia の H100 および近々登場する H200 と競合する AMD の MI300X は、浮動小数点パフォーマンスとメモリ帯域幅ですでにリードしており、最新のチップによりそのリードはさらに拡大しています。

AMDはNvidiaのHopper世代の部品と比較したがるかもしれないが、心配すべきはHopper世代の部品ではない。より懸念されるのは、今年後半に市場に徐々に登場し始めるとされるBlackwell世代の部品だ。

B200 構成では、1,000W Blackwell パーツは、高密度 FP8 で最大 4.5 ペタFLOPS、FP16 で最大 2.25 ペタFLOPS のパフォーマンス、192GB の HBM3e メモリ、および 8TB/秒の帯域幅を実現します。

より激しく、より速く戦う

SSD価格高騰の原因はAIサーバーの企業需要
ArmはAIアクセラレータユニットの流行にすっかり飽き飽きしている
AMDのCFO、ジャン・フー氏がCPU、GPU、そして今後の展望について語る
エヌビディアは「中国特化型」GPUで現地の競争に直面

AMD は、Nvidia の Blackwell 部品が優位に立っているという事実に気付いており、競争力を高めるために、House of Zen は新しい Instinct アクセラレータを毎年リリースするサイクルに移行しています。

もしこの話に聞き覚えがあるとすれば、それは少なくとも投資家に提供された資料によると、Nvidiaが昨年秋に同じことをしたからだ。AMDは次世代のCDNA 4コンピューティングアーキテクチャについて多くを語っていないが、私たちが目にしたわずかな情報から判断すると、Blackwellの計画とかなり整合性が取れているだろう。

AMDによると、CDNA 4はMI325Xと同じ288GBのHBM3e構成を維持するが、コンピューティングタイルの3nmプロセスノードに移行し、FP4とFP6データ型のサポートを追加する。FP6データ型はNvidiaがBlackwellですでに採用している。

新しいデータ型は、FP8に関するAMDの課題の一部を軽減するのに役立つかもしれません。FP4とFP6は、FP8のような標準化の欠如に悩まされていないようです。FP8は、AMDとNvidiaが大きく異なる実装を使用しているため、かなり混乱しています。新しい4ビットおよび6ビット浮動小数点実装では、（願わくば）これはそれほど大きな問題にはならないでしょう。

2025年のCDNA 4のデビューに続き、AMDは「CDNA next」（一貫性を保つためにCNDA 5と呼ぶことにする）が「大幅なアーキテクチャのアップグレード」を実現すると主張している。

それが具体的に何を意味するのか、AMDは明らかにしたがらなかった。しかし、最近幹部らが行った議論から判断すると、異機種混在のマルチダイ展開や、さらにはフォトニックメモリの拡張が含まれる可能性がある。何しろAMDは、まさにその技術を開発しているCelestial AIに資金を提供している投資家の一社なのだ。

AMDは、NvidiaのH200に対抗するために構築された288GBのAIアクセラレータMI325Xを発表した。