AMD は、AI 分野でライバルの Nvidia との差を縮め、高性能コンピューティング (HPC) コミュニティでの地位を強化する取り組みの一環として、Instinct MI300 シリーズ アクセラレータの発売により、高度なパッケージングとチップレットを限界まで押し進めています。
2022年後半、ChatGPTのリリースに伴い生成AIの盛り上がりが冷めやらぬ中、AMDには競争力のある答えがなかった。ランキング1位のFrontierスーパーコンピューターに搭載されているAMDのMI250Xは、高精度なFP64演算処理において傑出していた。しかし、AIのトレーニングや推論で一般的に使用される低精度ワークロードでは、NVIDIAのH100に及ばなかった。
MI250XはFP64では100テラFLOPSにわずかに届かない性能でしたが、FP16またはBF16では383テラFLOPSにとどまり、NvidiaのA100をわずかに上回りました(もちろん、スパース性を考慮した場合)。しかし、H100と比べると、MI250Xは及ばない結果となりました。FP8では、NvidiaのフラッグシップモデルであるA100はSXMフォームファクターで1,979テラFLOPSを超え、スパース性を考慮すると4ペタFLOPSに近い性能を発揮します。
AMDは今週、Instinct MI300A APUとMI300X GPUを発売し、HPC、AIトレーニング、推論向けに最適化されたモジュラーアクセラレータによって、このパフォーマンス不足を解消することを目指しています。そして、AMDの性能に関する主張を見る限り、まさにその目標は達成されたようです。
AMDによると、MI300X GPUはNVIDIAのH100と同等の速度だけでなく、FP8性能で2.6ペタFLOPSを達成し、その性能を凌駕するとのこと。MI300シリーズの製品は、NVIDIAの製品と同様に、標準的な2:1の優位性を維持しているとのことです。
AMDは、Instinct MI300XがNvidia H100よりもAIワークロードで最大32%高いパフォーマンスを発揮すると主張している。 - クリックして拡大
純粋なFLOPSで言えば、MI300XはNvidiaのH100よりも32%高速です。しかし、MI300シリーズの最大の強みはやはりメモリにあります。
MI300Xは容量が大きいだけでなく、帯域幅も高速で、H100の3.35TB/秒に対して5.2TB/秒を実現しています。もちろん、最近発表されたH200は141GBのHBM3eを搭載し、4.8TB/秒の帯域幅(NvidiaのGrace-Hopperスーパーチップでは4.9TB/秒)を実現すると予想されるため、この差はいくらか縮まります。それでも、この分野ではAMDがリードを保っています。
AMDによると、これはAI推論において大幅なパフォーマンスの優位性につながるとのことです。MI300Xは、ブルームの1760億パラメータ大規模言語モデルにおけるトークンスループットにおいてH100の1.6倍、MetaのLlama 2 70Bモデルにおけるレイテンシにおいて1.4倍の優位性を示しています。一方、AIトレーニングに関しては、AMDはMI300XがNVIDIAのH100と同等の性能で「競争力」を発揮するとしています。
AMDのInstinct MI300Aは、HPCワークロードにおいてNvidia H100よりも最大1.8倍高いパフォーマンスを約束します - クリックして拡大
一方、HPCワークロード向けには、AMDのMI300AはZen 4 CPUコアとCDNA 3グラフィックコアの組み合わせで、倍精度演算性能122.6テラフロップスを実現しています。これはH100の1.8倍に相当します。しかし、AMDはコヒーレントメモリアーキテクチャのおかげで、OpenFoam Motorbikeなどのベンチマークでは、H100と比較して最大4倍のパフォーマンス向上が期待できるとしています。
ベンダーが提供する数値はどれもそうですが、AMDの主張は鵜呑みにしないことをお勧めします。とはいえ、AMDがどのようにしてこのチップからこれほどの性能を引き出したのかは、同様に重要であり、今回の発表において最も興味深い要素と言えるでしょう。
AMDがInstinctにEpycモジュール性を導入
AMD の MI300 シリーズの部品は、パッケージングとアーキテクチャの両方の面で、これまでチップ業界で見られたどの製品とも異なります。
LLM と生成 AI をめぐる継続的な誇大宣伝を考慮して、2 つのうちよりシンプルな方である、AI トレーニングおよび推論用の AMD の新しい GPU、MI300X から始めることにします。
前モデルのMI250Xと比較すると、MI300Xははるかに複雑な構成で、12個のI/OダイとGPUダイをシリコンサンドイッチ状に挟み込んでいます。チップの中心には、AMDがGPUダイと呼ぶ8個のXCDが搭載されています。
MI300は、HPCワークロード向けに、24個のZen 4コア、6個のCDNA 3 GPUダイ、128GBのHBM3メモリを1つのパッケージに統合しています - クリックして拡大
これらのチップレットはそれぞれ、4MBの共有L2キャッシュを備えた40個のCDNA 3コンピュートユニットを搭載していますが、実際にアクティブなのは38個のみです。MI300Xは合計304個のCDNA 3コンピュートユニットと192GBのHBM3メモリを1つのパッケージに搭載しています。
この垂直統合は、TSMCのCoWoS(Chip-on-Wafer-on-Substrate)をはじめとする、数々の高度な2.5Dおよび3.5Dパッケージング技術によって可能になっています。これらの技術はAMDにとって目新しいものではありません。同社は、複数の小型で歩留まりの高いダイを単一の論理ユニットに統合したEpyc CPUで、この技術を普及させたと言えるでしょう。
上から下に向かって、4つのI/Oダイの上にそれぞれ2つのGPUチップレット(XCD)が積み重ねられます。これは、AMDのXチップでSRAMを増設するのに使用されている技術に類似しています。その後、I/OダイはTSMC CoWoSを使用して有機基板に接続されたシリコンインターポーザーに接合されます。
Epycと同様に、メモリはCPU自体ではなくMI300のI/Oダイに接続されています。ただし、一般的なDDR5メモリコントローラーがマザーボード上の複数のDIMMに接続されるのではなく、各HBM3スタックはTSMCの2.5Dパッケージング技術を使用して接続され、最大限の帯域幅を確保しています。
AMD Instinct MI300シリーズアクセラレータは、2.5Dと3.5Dのパッケージングを組み合わせて高密度コンピューティングサンドイッチを構築します。 - クリックして拡大
AMD の APU、MI300A は、CDNA 3 GPU チップレットのうち 2 つを、合計 24 個の Zen 4 コアと 128 GB の HBM3 メモリを搭載した 3 つの CPU ダイに交換することで、この方式を新たな極限まで引き上げています。
ご存知ない方もいるかもしれませんが、これらは昨年秋に発売されたAMDのEpyc 4チップに搭載されているものと同じCCDです。MI300Aの初期レンダリングでは、カスタムCPUチップレットが使用されているのではないかと疑問に思いました。
APU(AMDは長年、CPUコアとGPUコアの両方を搭載したチップのことをAPUと呼んできました)は、長年にわたりAMDのデスクトップおよびモバイル向けプロセッサファミリーの主要コンポーネントでした。MI300Aは、AMDがこのアプローチをデータセンター向けチップに適用した初めての製品です。これまでHouse of Zenが発表してきたほとんどのAPUとは異なり、このAPUはモノリシックではなく、HPC市場をしっかりとターゲットにしています。
このコンピューティングとIOのサンドイッチ構造の利点は、ダイとメモリ間の極めて高性能な通信です。下のグラフが示すように、2つのHBM3スタックは4つのIODそれぞれに1.33TB/秒の帯域幅を提供し、各IODは各方向に1.2TB/秒から1.5TB/秒の速度で相互通信できます。これにより、各IODは最大2つのGPUタイルにそれぞれ2.1TB/秒の速度でデータを送ることができます。
AMDはMI300のチップレット間の帯域幅をテラバイト/秒単位で大幅に向上させています。 - クリックして拡大
実際、アーキテクチャ全体における最大のボトルネックは、パッケージ外へのデータ転送です。4つのI/Oダイは、構成に応じてアクセラレータ、ホスト、または周辺機器間の通信に、合計1Tb/s(双方向で512GB/s)の帯域幅を提供します。AMDによると、これによりMi300A APUは4ソケット構成をサポートし、MI300X GPUは最大8ソケットのキャリアボードをサポートできます。
これだけの性能を高密度パッケージに詰め込むと消費電力は高くなりますが、懸念していたほどではありません。当初の性能発表では、チップの消費電力は最大850Wと示唆されていました。ところが、MI300Xの定格消費電力は750Wで、前モデルより約150W増加していますが、H100よりはわずか50W増加しています。一方、MI300AのTDPは550Wから760Wまで可変のようです。
競争環境
AMDがデータセンター向けAPUの構築について語るのは、決して初めてではない。IntelのFalcon Shoresは当初、CPUとGPUのコアとタイルを柔軟に配置できるXPU(当然ながらChipzillaではAPUと呼ぶことはできない)として構想されていた。
しかし、ポンテ・ヴェッキオの後継機であるリアルト橋の開発中止に伴い、インテルはこのコンセプトを断念しました。当時、インテルのスーパーコンピューティング・グループ担当副社長であるジェフ・マクベイ氏は、「CPUとGPUをXPUに統合するという動きは時期尚早だった」と主張していました。その後、Falcon ShoresはインテルのHabana AI部門のIPを統合した標準GPUとして再構想され、2025年に発売される予定です。
さらに、Nvidia の Grace-Hopper スーパーチップは、Arm プロセッサと 72 個の Neoverse V2 コア、H100 GPU ダイ、512GB の LPDDR5x メモリ、96GB の HBM3 または 144GB の HBM3e を組み合わせています。
- AMD SEV OMG: 悪質なハイパーバイザーのキャッシュ干渉により VM の信頼実行が無効化される
- Nvidiaが「SuperNIC」を発表 – SmartNIC、DPU、IPUのようなものだが、よりスーパー
- テクノロジー業界がオープンで責任あるAIを推進するためにAIアライアンスを結成
- 39週間:デルのAIサーバーを待つ時間はこれだけ
現在 GH200 と呼ばれているこのチップと AMD の MI300A を比較したくなるかもしれませんが、指摘する価値のある顕著な違いがいくつかあります。
CPUとGPUの2つのチップの相互接続方法は大きく異なります。MI300シリーズで見られるシリコン対シリコンのダイスタッキングではなく、NvidiaのGH200は900GB/秒のNVLink-C2Cインターコネクトを使用して2つのチップをブリッジします。NVLinkは高速ですが、AMDがMI300のダイで実現しているTB/秒の帯域幅には遠く及びません。とはいえ、オフパッケージ通信では、NVLinkは900GB/秒と、MI300シリーズで実現される896GB/秒よりもわずかに高速です。
もう一つの重要な違いはメモリドメインに関するものです。NvidiaのGH200はCPUにDRAM、GPUにHBMを使用しています。これにより容量の面で有利になりますが、データを処理する前に、どちらか一方から他方へコピーする必要があります。一方、MI300AはCPUとGPU間でメモリをシームレスに共有します。両方のプロセッサは同じHBMプール上で読み取り、書き込み、操作を行うため、コストのかかるコピー操作は不要です。
すでに検討したように、このアプローチのデメリットは複雑さです。MI300は、少なくともパッケージングの面では、間違いなくより複雑なチップです。NvidiaのGH200はよりシンプルですが、データ移動に関しては効率が劣る可能性があります。どちらのアプローチが本質的に優れているかは明確ではなく、ハードウェアが使用される状況によって異なるでしょう。
より広範なGPUおよびAIアクセラレータ市場を見てみると、MI300Xは、NVIDIAが最近発表したH200 GPUと競合することになります。H200は、より高速なHBM3eキットへの移行により、H100よりも高いメモリ帯域幅を備えています。NVIDIAのロードマップによると、このチップは実際には2024年にリリースされる次世代B100のプレースホルダです。
MI300Xは、2024年にIntelの待望のAIアクセラレータGaudi 3とも競合する。詳細は不明だが、Intelは、ブレインフロート16のパフォーマンスが4倍向上し、メモリ容量と帯域幅が50パーセント増加すると主張している。
可用性と展開
供給状況について言えば、MI300のAPU版とGPU版はどちらも既に顧客に出荷されています。最も早く採用されている企業としては、Microsoft、Oracle、そして米国エネルギー省のローレンス・リバモア国立研究所などが挙げられます。
先月、Microsoft AzureはMI300Xを搭載したVMを発表しました。これらのインスタンスは、8つのアクセラレータと合計1.5TBのHBM3メモリを搭載し、各カードには400Gb/sのInfinibandネットワークが接続されています。
Oracle は、Nvidia A100 および H100 アクセラレータの大規模なクラスターと並んで、AMD の MI300X もレンタル可能にする予定です。
HPC分野では、ローレンス・リバモア国立研究所のMI300A搭載スーパーコンピュータ「El Capitan」の開発が既に進行中です。姉妹サイト「The Next Platform」が6月に先行公開したこのシステムは、来年後半に稼働開始予定で、ピーク性能2エクサフロップスを約束しています。
AI アクセラレータの需要が非常に高く、これらのチップには高度なパッケージング技術が使われていますが、すでに容量が制限されているため、政府機関やハイパースケール クラウド プロバイダーでない限り、MI300A または X のバリアントを入手するのは難しいと予想されます。
それにもかかわらず、Hewlett Packard Enterprise、Lenovo、Supermicro、Eviden、Gigabyte など、いくつかの大手 OEM がチップのサポートを発表しました。®