NvidiaとAMDがAIパフォーマンスの主張を巡って激しく対立する理由

分析ベンダー提供のベンチマークやパフォーマンスの主張について書くときは必ず、鵜呑みにしないようにという警告を添えます。

これは、ベンダーが自社のチップや製品が競合製品に比べて劣っている点を指摘する習慣がないため、結果は通常、最良の形で提示されるよう、厳選され、調整され、最適化されるからです。

このような比較は通常、競合チップメーカーからの反応を引き起こさないが、AMDが新たに発売したMI300X GPUに関しては、NVIDIAは発言する必要があると判断した。先週のブログ投稿で、このアクセラレータ専門企業はAMDのベンチマークの正確性と妥当性を否定した。

金曜日までに、AMD は応答し、さらなる最適化された数値を共有し、Nvidia の最適化されたソフトウェアライブラリと低精度のサポートを考慮してもパフォーマンス上の利点があると主張した。

Nvidiaがなぜそんなに興奮しているのか

AMDは今週初めの発表イベントで、チップメーカーとして、チップのGPUバリアントであるMI300Xが、MetaのLlama 2 700億パラメータモデルを推論する際に、H100よりも40パーセント低いレイテンシを達成できたと主張した。

NVIDIAによると、問題はAMDのベンチマークが最適化されたソフトウェアやH100のFP8データ型のサポートを活用せず、代わりにvLLMを用いてFP16で実行されたことにあるという。一般的に、精度の低いデータ型は精度とパフォーマンスを犠牲にする。つまり、NVIDIAはAMDがH100の足を引っ張っていたと主張しているのだ。

Nvidiaは、チップメーカーの推奨ソフトウェアスタックとFP8精度を使用した場合、H100がAMDのMI300Xよりも優れていると主張している。

Nvidia は、クローズドソースの TensorRT LLM フレームワークと FP8 を使用してベンチマークしたところ、H100 は実際に MI300X の 2 倍の速度であると主張しています。

NVIDIAはまた、AMDがバッチサイズを1に設定することで、つまり一度に1つの推論リクエストを処理することで、パフォーマンスの最良のシナリオを提示していると主張している。しかし、ほとんどのクラウドプロバイダーはレイテンシを犠牲にしてバッチサイズを大きくするため、これは非現実的だとNVIDIAは主張している。

Nvidia の最適化されたソフトウェアスタックを使用することで、8 つのアクセラレータを搭載した DGX H100 ノードは、同様に装備された AMD の MI300X を 8 つ搭載したノードが 1 つのバッチサイズを処理するのにかかる時間で、14 のバッチサイズを処理できるという。

SemiAnalysisのチーフアナリスト、Dylan Patel氏も、単一バッチレイテンシは「無意味な」指標であることに同意している。しかし、彼はNvidiaのブログ投稿を、AMDの最新アクセラレータがNVIDIAを脅かしていることを認めているものと捉えている。

「NVIDIAは、AMDのMI300Xの性能と、二大顧客であるMicrosoftとMetaからの大量受注に明らかに脅威を感じています」と、同氏はThe Register紙に語った。「ゲーミング分野では、NVIDIAは何世代にもわたり、AMDとこれほどオープンに比較してきませんでした。AMDは競争力がないためです。データセンター分野でも、AMDがデータセンター市場で勝利を重ねていた頃は、NVIDIAは気にしていませんでした。しかし今、AMDが複数のクラウド市場で契約を獲得しているため、NVIDIAは反撃を迫られています。」

AMDの反論

Nvidia の投稿が公開されてから 1 日以内に、AMD は独自のブログ投稿で応答し、Nvidia のベンチマークは同一条件での比較ではないと主張しました。

AMDは、独自の最適化されたソフトウェアスタックを使用していることに加え、NVIDIAがH100のFP8パフォーマンスをMI300XのFP16と比較していることを指摘しています。精度を半分に下げるごとに、チップの浮動小数点演算は2倍になるため、この差は軽視できません。

MI300X は FP8 をサポートしています。ただし、AMD のテストで使用された vLLM はまだこのデータ型をサポートしていないため、MI300X での推論には今のところ FP16 ベンチマークしか使用できません。

最後に、AMD は、Nvidia が AMD のパフォーマンスデータを相対レイテンシから絶対スループットに反転したことを非難しました。

AMDのブログ投稿では、単一バッチのレイテンシに関するNvidiaの批判には触れられていないが、広報担当者はThe Registerに対し、これは標準的な方法だと語った。

バッチサイズ1は、最低レイテンシパフォーマンスを測定する際の標準であり、最大バッチサイズは最高のスループットパフォーマンスを強調するために使用されます。スループットを測定する際、通常、お客様のSLAに適合する最大バッチサイズを設定します。

広報担当者は、AMDが発売日に発表したパフォーマンスには、1760億パラメータのブルームモデルにおける「最大バッチサイズ」でのスループット性能も含まれていると付け加えた。その場合、AMDはNVIDIAのH100に対して1.6倍の優位性があると主張していたが、後述するように、その多くはMI300Xのより堅牢なメモリ構成によるものだ。

AMD によれば、Nvidia の推奨ソフトウェアスタックを使用した場合でも、MI300X は FP16 AI 推論で 30 パーセント高いパフォーマンスを発揮するという。

AMDは、Nvidiaの推奨ソフトウェアスタックを使用した場合でも、MI300XはFP16 AI推論で30％優れたパフォーマンスを発揮すると述べている。

AMDは、NVIDIAのブログ投稿とパフォーマンスに関する主張を批判するだけでなく、新たな最適化を活用した最新のパフォーマンス数値も発表した。「11月に発表イベントで使用したデータを記録して以来、大きな進歩を遂げています」と投稿には記されている。

AMDは、これらの改善により、FP16精度で一般的なvLLMフレームワークを使用した場合、Llama 2 70BにおけるMI300Xのレイテンシリードが1.4倍から2.1倍に向上したと主張した。

AMDは、H100搭載ノードでNvidiaのTensorRT-LLMフレームワークを使用した場合でも、MI300XプラットフォームはFP16でのレイテンシを30パーセント改善すると主張した。

さらに、FP16 の MI300X を FP8 の H100 および Nvidia の推奨ソフトウェアスタックと比較した場合でも、AMD は同等のパフォーマンスを達成できると主張しました。

Nvidia は、AMD の最新のブログ投稿に関する私たちの質問に直接答えず、代わりに主要なベンチマークの詳細については GitHub ページに誘導しました。

AIにおけるソフトウェアの役割の拡大

Nvidia と AMD のベンチマーク論争は、ソフトウェアライブラリとフレームワークが AI パフォーマンスの向上に果たす役割など、いくつかの重要な要素を浮き彫りにしています。

Nvidia の主な主張の 1 つは、TensorRT-LLM ではなく vLLM を使用することで、H100 が不利になったというものです。

9 月に発表され、10 月下旬にリリースされた TensorRT-LLM は、ディープラーニングコンパイラー、最適化されたカーネル、前処理および後処理の手順、マルチ GPU およびマルチノード通信プリミティブなどのソフトウェア機能の組み合わせです。

NVIDIAは、最適化されたソフトウェアを使用することで、60億パラメータのGPT-Jモデルを実行した際に、H100の推論性能を実質的に2倍に向上させることができたと主張しています。一方、Llama 2 70Bでは、77%の性能向上が達成されたとNVIDIAは主張しています。

AMDは今月初めにROCm 6フレームワークを発表し、同様の主張を展開しました。同社は、最新のAIフレームワークはvLLM、HIP Graph、Flash Attentionの最適化により、LLMパフォーマンスが1.3倍から2.6倍向上したと主張しました。

AMDは、ROCm 5上で動作するMI250Xと比較して、新しいソフトウェアフレームワーク上で動作するMI300Xは8倍高速であると主張した。

しかし、パフォーマンスを実現するソフトウェアを軽視すべきではない一方で、ハードウェアは依然として重要な要素であり、これは現在および将来のアクセラレータにおけるより高速で大容量のメモリ構成への推進からも明らかです。

AMDのメモリの優位性

AMDのMI300Xは、FP8とFP16mの両方において、H100に対して約30%の性能優位性を持っています。しかし、AI推論ワークロードは複雑であり、パフォーマンスはFLOPS、精度、メモリ容量、メモリ帯域幅、インターコネクト帯域幅、モデルサイズなど、さまざまな要因に依存します。

AMDの最大の強みは浮動小数点演算性能ではなく、メモリです。MI300Xの高帯域幅メモリ（HBM）は55%高速で、5.2TB/秒を実現し、容量はH100の80GBに対して2倍以上の192GBです。

これはAI推論にとって重要です。モデルのサイズは、実行に必要なメモリ量に正比例するからです。FP16では、パラメータごとに16ビット、つまり2バイトになります。つまり、Llama 70Bの場合、約140GBに加えて、推論ワークロードの高速化に役立つKVキャッシュ用のメモリが必要になりますが、追加のメモリが必要になります。

そのため、FP16では、AMDのMI300Xは自動的に有利になります。これは、モデル全体が単一のアクセラレータのメモリに収まり、KVキャッシュに十分な余裕があるためです。一方、H100はモデルを複数のアクセラレータに分散させる必要があるため、不利になります。

一方、FP8では、Llama 2 70BはH100の80GBメモリのうち約70GBしか必要としません。700億パラメータのモデルをH100のメモリ1個に収めることは可能ですが、KVキャッシュに使えるスペースがほとんど残っていないとPatel氏は指摘します。これにより、バッチサイズ、つまり処理可能なリクエスト数が大幅に制限されるとPatel氏は説明します。

また、Nvidia のブログ投稿から、チップメーカーはバッチサイズ 1 を現実的ではないと考えていることがわかります。

システムレベルでは、特に AMD のパフォーマンス主張で強調されている 1,760 億パラメータのブルームモデルのような大規模なモデルを見ると、これが顕著になります。

AMDのMI300Xプラットフォームは、最大8基のアクセラレータを搭載したシステムをサポートし、合計1.5TBのHBMメモリを搭載できます。一方、NvidiaのHGXプラットフォームは最大640GBです。SemiAnalysisがMI300Xのローンチレポートで指摘しているように、FP16ではBloomに必要なメモリは352GBであり、AMDはより大きなバッチサイズに対応できるメモリ容量を確保しています。

AWS、AI向けにコア満載のGraviton4とより強力なTrainiumアクセラレーターを発表
AMDの最新AIチップに関しては、お金とメモリが重要だ
インテルはCPU上でAIを実行したいと考えており、第5世代Xeonがその実現に適していると述べている。
AMDはMI300シリーズAPUとGPUを組み合わせたシリコンサンドイッチでNvidiaのAI帝国に挑戦する

H200とGaudi3が間もなく登場

メモリがここでの制限要因であるというさらなる証拠が必要なら、NVIDIAの次世代GPU「H200」を見てください。このパーツは新年第1四半期に発売予定で、141GBのHBM3eメモリを搭載し、4.8TB/秒の帯域幅を実現します。

しかし、FLOPSの観点では、このチップは目に見えるパフォーマンスの向上をもたらしません。スペックシートを詳しく見ると、後継機であるH100と同等の性能であることが分かります。

それにもかかわらず、Nvidia は、H200 は H100 と比較して Llama 2 70B で約 2 倍の推論パフォーマンスを実現すると主張しています。

MI300X は H200 よりもメモリと帯域幅がまだ大きいですが、その差ははるかに小さくなっています。

「お客様は、比類のないパフォーマンスと汎用性からNVIDIAのフルスタックAIプラットフォームを選択しています。私たちは、チップ、システム、ソフトウェアを含むテクノロジースタックのあらゆる層にわたるイノベーションを通じて、継続的なパフォーマンス向上を実現しています」と広報担当者はThe Registerに語った。

そのため、H200は来年初めに発売予定のNVIDIAの唯一のGPUではありません。GPUの王者であるNVIDIAは最近、アクセラレータとネットワーク機器のリリースサイクルを年1回に変更し、2024年にB100を発売する予定です。

このチップについてはまだよくわかっていませんが、前世代のチップよりもさらに高速になり、AI ワークロード向けに最適化されていると推測できます。

インテルの次期アクセラレータ「Gaudi3」についても同様のことが言えます。インテルはHabana Labの第3世代チップについて多くを明かしていませんが、メモリ帯域幅が前世代の1.5倍になることは分かっています。また、ネットワーク性能は2倍になり、ブレインフロート16（BF16）性能は4倍になるとされています。特に後者の主張は奇妙です。なぜなら、インテルはGaudi2のBF16性能が実際にはどれほどだったのかを明かそうとせず、実世界における性能について語ることを好むからです。

Intelは、競合他社のベンチマークテストの不正行為について意見を述べるという私たちの申し出を断った。いずれにせよ、AMDのMI300Xは新年、Nvidiaとだけ競争するわけではないだろう。®

NvidiaとAMDがAIパフォーマンスの主張を巡って激しく対立する理由

Table of Contents

Nvidiaがなぜそんなに興奮しているのか

AMDの反論

AIにおけるソフトウェアの役割の拡大

AMDのメモリの優位性

H200とGaudi3が間もなく登場

Discover More

米当局、仮想通貨取引所に規制への参加を呼び掛け

ヴァイオリン・メモリーは財務状況が悪化し、従業員の4分の1を解雇した。

イーロン・マスク、火星にベジタリアンの小さな町を構想

Table of Contents

Nvidiaがなぜそんなに興奮しているのか

AMDの反論

AIにおけるソフトウェアの役割の拡大

AMDのメモリの優位性

H200とGaudi3が間もなく登場

Smart Recommendations

Discover More