AMDは、木曜日にサンフランシスコで開催されたAdvancing AIイベントで次世代のMI325X AIアクセラレータを発表し、InstinctアクセラレータのVRAMを256GBのHBM3eに増強しました。
この製品は、AMDが昨年末に発表したMI300アクセラレータをベースにしていますが、192GBのHBM3モジュールを、より高速で大容量の256GB HBM3eモジュールに置き換えています。このアプローチは、コンピューティング性能はそのままに、メモリ容量と帯域幅を増強した、昨年発表されたNVIDIA独自のH200リフレッシュと多くの点で類似しています。
多くのAIワークロードでは、メモリが高速で容量が大きいほど、より優れたパフォーマンスを引き出せます。AMDは、より多くのHBMをチップに搭載することでNvidiaとの差別化を図っており、OpenAIのGPT4oのような兆パラメータスケールモデルをより少ないノードで展開したいMicrosoftなどのクラウドプロバイダーにとって、AMDは魅力的な選択肢となっています。
AMDの最新Instinct GPUは、256 GBのHBM3e、6 TB/sのメモリ帯域幅、1.3ペタFLOPSの高密度FP16パフォーマンスを誇ります - クリックして拡大
しかし、鋭い観察眼を持つ皆さんは、このチップはもっと多くのメモリを搭載する予定ではなかったのかと首をかしげているかもしれません。実はその通りです。このチップが今春のComputexで初めて発表されたとき、288GBのVRAMを搭載する予定でした。これは前世代機より50%増、主要な競合であるNvidiaの141GB H200の2倍の容量です。
4ヶ月後、AMDはどうやら考えを変え、代わりに32GBのHBM3eスタック8枚を使用することにしました。木曜日にサンフランシスコで開催されたAMDのAccelerating AIイベントに先立ち、AMDのGPUプラットフォーム担当バイスプレジデント、ブラッド・マクレディ氏は、この変更の理由は製品開発の初期段階で行われたアーキテクチャ設計にあると述べました。
「実はComputexでは最大288GBまでと発表しましたし、当時もそう考えていました」と彼は語った。「GPU側のチップ設計に関しては、かなり前にアーキテクチャ上の決定を下しました。ソフトウェアで何かを行うつもりでしたが、コストパフォーマンスのトレードオフとしては良くないと判断し、最終的に256GBで実装することになりました。」
「それが、この製品における私たちにとっての最適化された設計ポイントなのです」と、AMD のデータセンター GPU グループ担当副社長アンドリュー・ディークマン氏は繰り返した。
当初期待されていたほどメモリ密度は高くないかもしれませんが、このアクセラレータはメモリ帯域幅が6TB/秒と、旧型のMI300Xの5.3TB/秒から大幅に向上しています。ノードあたり2TBと48TB/秒という高いメモリ容量とメモリ帯域幅により、アクセラレータは許容可能な生成速度を維持しながら、より大規模なモデルをサポートできるようになるはずです。
興味深いことに、これだけのメモリ増設によって消費電力は250ワットから1,000ワットへと大幅に増加しました。TDPに関しては、NVIDIAの次期B200とほぼ同程度です。
残念ながら、これだけのパワーが追加されているにもかかわらず、チップの浮動小数点精度は、前世代の高密度 FP16 の 1.3 ペタFLOPS や FP8 の 2.6 ペタFLOPS からそれほど向上していないようです。
それでもAMDは、実環境テストにおいて、Llama 3.1 70Bおよび405Bの推論性能において、このデバイスがNVIDIAのH200に対してそれぞれ20~40%のリードを獲得したと主張しています。Llama 2 70Bのトレーニングでは、パフォーマンスははるかに接近しており、AMDはMI325X単体で約10%の優位性、システムレベルでは同等の性能を実現したと主張しています。
AMD Instinct MI325X アクセラレータは現在、第 4 四半期に生産出荷される予定で、Dell Technologies、Eviden、Gigabyte Technology、Hewlett Packard Enterprise、Lenovo、Supermicro などのシステムが 2025 年第 1 四半期に市場に投入される予定です。
2025年後半にはさらなるパフォーマンスが期待される
MI325X は 288 GB の HBM3e を搭載して出荷されない可能性がありますが、来年後半に発売される AMD の次期 Instinct チップである MI355X には 288 GB の HBM3e が搭載される予定です。
AMD の今後の CDNA 4 アーキテクチャに基づいて、アーキテクチャでサポートされる新しい FP4 または FP6 データ型を使用した場合、最大 9.2 高密度ペタFLOPS というより高い浮動小数点パフォーマンスも約束します。
AMD がこれを実現できれば、高密度 FP4 パフォーマンスで約 9 ペタフロップスの能力を持つ Nvidia の B200 アクセラレータと直接競合することになります。
AMD によれば、FP/BF16 および FP8 データ タイプを使用して、より従来型の AI ワークロード (すでにこのようなものがあるのは面白いことです) をまだ実行しているユーザー向けに、パフォーマンスがそれぞれ約 80% 向上して 2.3 ペタ FLOPS と 4.6 ペタ FLOPS になったとのことです。
AMDの次世代MI355Xは、288GBの約束を果たし、システム性能をFP4の74ペタFLOPSに向上させると報じられている - クリックして拡大
AMD によれば、8 GPU ノードでは、2.3 テラバイトの HBM と 74 ペタフロップスの FP4 パフォーマンスに拡張され、その精度で 42 億のパラメータ モデルを 1 つのボックスに収めるのに十分な大きさになります。
- AIブームにもかかわらず、PC出荷は横ばい
- Supermicroは、設計上やや遅い3U AIサーバーに18基のGPUを詰め込んだ
- TensorWave、データセンターにAMDアクセラレーターを導入するため4300万ドルを調達
- Inflection AI EnterpriseはNvidia GPUを廃止し、IntelのGaudi 3を採用
AMD、初のUltra Ethernet NICに一歩近づく
AMD は新しいアクセラレータに加え、来年初めにリリース予定の Nvidia の InfiniBand および Spectrum-X コンピューティング ファブリックと BlueField データ プロセッサに対する自社の回答も明らかにした。
AMD Pensando ネットワーク チームによって開発された Pensando Pollara 400 は、Ultra Ethernet Consortium 仕様をサポートする最初の NIC になると予想されています。
AIクラスターでは、これらのNICは、ワークロードを複数のノードに分散するスケールアウト型コンピューティングネットワークをサポートします。このような環境では、パケットロスによってテールレイテンシが増加し、モデルのトレーニング時間が遅くなる可能性があります。AMDによると、トレーニング時間の平均30%は、ネットワークの追いつき待ちに費やされています。
Pollara 400 には単一の 400 GbE インターフェイスが装備され、Nvidia、Broadcom などが InfiniBand のような損失と遅延を実現するために採用しているのと同じ種類のパケット スプレーや輻輳制御テクノロジがサポートされます。
Pensandoチームが特に強調した違いの一つは、固定機能のASICやFPGAではなく、プログラマブルなP4エンジンを使用している点です。Ultra Ethernetの仕様はまだ初期段階にあるため、今後進化していくことが予想されます。そのため、最新の規格に対応するためにオンザフライで再プログラムできる部品は、アーリーアダプターにとって柔軟性を提供します。
Pollara が Nvidia の Spectrum-X Ethernet ネットワーク プラットフォームなどに対して持つ可能性があるもう 1 つの利点は、Pensando NIC です。これにより、互換性のあるスイッチがなくても超低損失ネットワークを実現できます。
バックエンド ネットワークに加えて、AMD は、ツイン 400 GbE インターフェイスを備え、CPU からさまざまなソフトウェア定義ネットワーク、セキュリティ、ストレージ、および管理機能をオフロードすることでフロントエンド ネットワークにサービスを提供するように設計された Salina と呼ばれる DPU も展開しています。
両製品ともすでに顧客へのサンプル出荷が開始されており、一般提供は 2025 年上半期に予定されています。®