AMD、Threadripper Pro 9000ハイエンドデスクトップチップでインテルをバックミラーに追いやる

Computex AMD は、今週の Computex で発表された 9000 シリーズ Threadripper ワークステーション CPU により、ハイエンドデスクトップ (HEDT) およびワークステーション分野で Intel に対するリードをさらに拡大することを目指しています。

以前の Threadripper (TR) と比較すると、9000 シリーズはかなり落ち着いたアップデートのようで、そのメリットのほとんどはプロセスの改善と AMD の Zen 5 マイクロアーキテクチャへの移行によるものです。

AMD の Zen 5 アーキテクチャは、昨年の夏に 9000 シリーズ Ryzen デスクトップチップとともに発売され、Zen 4 と比べてクロックあたりの命令数が 16% 向上しました。その後、AMD はこのアーキテクチャを Epyc データセンターに導入し、現在は Threadripper ワークステーションプロセッサファミリに導入しています。

ここでは、AMD の 9000 シリーズ Threadripper について、最大に重点を置いて簡単に説明します。

AMD の 9000 シリーズ Threadripper の概要を以下にまとめます。「最大」という部分に重点が置かれています。画像をクリックすると拡大表示されます。

前世代と同様に、AMD の最新の Threadripper は、最大 96 個のコア、128 レーンの PCIe 5.0、ECC 対応の 8 チャネルの DDR5 6400 MT/s メモリ、および全ラインナップで最大 5.4GHz のブーストクロックを備え、Pro と Non-Pro の両方のバリエーションで利用できます。

具体的には、AMD のワークステーションクラスの TR Pro 9000 パーツは 12 から 96 コアの SKU で提供され、非 Pro HEDT バリアントでは 24 から 64 コアの凝縮された製品が提供されます。

これまで、AMDの非Pro Threadripperは、Pro版に比べてメモリチャネルとPCIeレーン数が少なくなってきました。例えば、2023年に発売されたAMDのTR 7000シリーズは、DDR5チャネルが4チャネル少なく、PCIe 5.0接続レーンが48レーンだったのに対し、Pro版は8チャネル、128レーンでした。

TR および TR Pro 9000 についてもこれが当てはまるかどうか、AMD に説明を求めました。

本日発表された Threadripper パーツの内訳は次のとおりです。

スレッドリッパープロ 9000

SKU	コア	スレッド	ブーストクロック	ベースクロック	L3	TDP
9995WX	96	192	5.4GHz	2.5GHz	384MB	350W
9985WX	64	128	5.4GHz	3.2GHz	256MB	350W
9975WX	32	64	5.4GHz	4.0GHz	128MB	350W
9965WX	24	48	5.4GHz	4.2GHz	128MB	350W
9955WX	16	32	5.4GHz	4.5GHz	64MB	350W
9945WX	12	24	5.4GHz	4.7GHz	64MB	350W

スレッドリッパー 9000

SKU	コア	スレッド	ブーストクロック	ベースクロック	L3	TDP
9980X	64	128	5.4GHz	3.2GHz	256MB	350W
9970X	32	64	5.4GHz	4.0GHz	128MB	350W
9960X	24	48	5.4GHz	4.2GHz	128MB	350W

AMDは今週開催されるComputex基調講演に先立ち、最新Threadripperの小売価格をまだ発表していません。とはいえ、ThreadripperはHEDT分野でほぼ無敵なので、市場が許容できる価格設定が可能です。

昨年の夏に発売されたインテルの最新世代ワークステーション部品は、現在 2 年前の Sapphire Rapids プラットフォームをベースとしており、最大 60 個のコア、112 レーンの PCIe 5.0、8 レーンの DDR5 4800 MT/s メモリを備えています。

AMD の 9000 シリーズ Threadripper は 7 月にデビューする予定です。

RDNA 4がワークステーションとしてデビュー

AMD は、新しい Threadripper と同時に、新しい RDNA 4 グラフィックスアーキテクチャと 32GB の vRAM を搭載した新しいワークステーション GPU も発表しました。

Radeon AI Pro R9700 は、チップ業界が以前発表した RX 9070 XT グラフィックカードをベースにしているようで、同じ 128 個の AI アクセラレータを搭載しており、この場合、FP16 で 96 teraFLOPS、スパース INT4 で 1531 TOPS の性能を実現します。

以前に説明したように、AMD の RDNA 4 アーキテクチャは、ハードウェアスパース性と FP8 データ型のサポートなど、AI ワークロードのパフォーマンスを大幅に向上させます。

AMD初のRDNA 4ワークステーションカードの概要は以下のとおりです。

注: 本稿執筆時点では、AMD は R9700 の小売価格をまだ公開していませんでした。

昨日見てきた Intel Arc Pro B60 と比較すると、300 ワットの R9700 は、AI 推論などの高密度 INT8 ワークロードで約 2 倍のパフォーマンスを発揮し、4 ビット精度に落として品質をある程度犠牲にしても構わない場合は最大 4 倍のパフォーマンスを発揮します。

しかし、このチップは依然としてNVIDIAの最上位ワークステーションハードウェアには及ばない。3月のGTCで発表されたGPU大手のRTX Pro 6000ワークステーションカードは、96GBのvRAMと最大4ペタOPSのスパースINT4性能を誇り、AMDの最新世代プロフェッショナルグラフィックスカードの約2.6倍の速度を誇ります。

おそらくこれが、AMD が R9700 を、大規模な AI モデルの実行時に最大 496 パーセント高いパフォーマンスを提供するとされる Nvidia の消費者向け RTX 5080 と比較することにした理由でしょう。

もちろん、vRAMに収まらないほど大きなモデルを実行するのはうまくいかないだろう

これは印象的に聞こえるかもしれませんが、グラフはかなり誤解を招きやすく、実際には vRAM を増やすと、より遅いシステムメモリにページアウトすることなく、より大きなモデルを実行できることを示しているだけです。

AMDが行ったと思われるのは、RTX 5080の16GBのvRAMに収まらないほど大きなモデルを厳選し、システムの低速なDRAMに強制的に割り当てたことです。ご想像の通り、これはAI推論のようなメモリ帯域幅が制限されるワークロードのパフォーマンスを完全に低下させます。

5080のvRAMに収まるQwen 3 14B Q4のような小型モデルで同じテストを再実行すると、結果はかなり異なるものになると思われます。これは、どちらのカードも256ビット幅のメモリコントローラを搭載している一方で、5080ははるかに高速なGDDR7メモリモジュールを使用しているためです。これらを合わせると、5080は960GB/秒のメモリ帯域幅を実現します。

AMD は R9700 のメモリ帯域幅の数値を公開していませんが、9070 XT の 640GB/秒に近いと仮定すると、5080 は約 1.5 倍高速であると推定されます。

AIに強いグーグルはジェミニをあらゆる点で批判
デルは、すべてを統括し、データセンターでそれらを結びつけるプライベートクラウドを1つ構築します。
Intelは、Nvidia Proに高額を費やすことを避けるために、安価なGPUを積み重ねるだろうと予想している
Nvidiaは、エージェントAIと並行してx86ワークロードを実行するサーバーを構築

AIに関しては、モデルに適合するだけのメモリがなければ、高速メモリは役に立ちません。つまり、AMDに全くメリットがないわけではありません。この点を誤解を招きにくい方法で理解してもらう方法があるだけです。

R9700 は、AMD の Threadripper CPU とともに 7 月に店頭に並ぶ予定です。®

AMD、Threadripper Pro 9000ハイエンドデスクトップチップでインテルをバックミラーに追いやる