Intel の 128 コアの Granite Rapids Xeon が発売されてからまだ 2 週間しか経っていないが、AMD はすでに、最大 192 コアまたは最高 5GHz のクロック速度で 2 桁の IPC 向上を誇る第 5 世代 Epyc ファミリーで反撃に出ている。
木曜日にサンフランシスコで開催された「Advancing AI」イベントで詳細が明らかになり、House of Zenの第5世代Epycデータセンターチップ(コードネーム「Turin」)を詳しく見ることができました。このチップには2つの種類があります。
Turinは、Zen 5コアをベースにしたパフォーマンス調整されたスケールアップバージョンと、Zen 5Cコンパクトコアをベースにしたスループット最適化されたスケールアウトバージョンで提供されます(クリックして拡大)
最初のものは、チップ設計者のフル機能の Zen 5 コアを 8 〜 128 個搭載したパフォーマンス調整済みのパーツであり、2 番目はスループットが最適化されたチップで、96 〜 192 個の小型の Zen 5C コアを搭載できます。
後者に聞き覚えがある方もいるかもしれませんが、AMDは昨年、クラウドに特化した128コアのEpycシリーズ「Bergamo」にコンパクトなZenコアを採用しました。本日発売される192コアのEpycは、事実上その精神的な後継機と言えるでしょう。
しかし、Intelの144コア6700E Xeon 6プロセッサのEコアとは異なり、AMDはAVX-512サポートなどの機能を削除していません。これは、ワークロードをあるマシンから別のマシンに移行する際に互換性の問題を引き起こす可能性があります。その代わりに、AMDはピーククロック速度とコアあたりのキャッシュ容量を犠牲にして、コア全体のサイズを縮小し、結果として高密度化を実現しました。
言い換えれば、コアそのものは機能的に同一であり、これが AMD が今回、両方のパーツに対して Turin 命名規則を採用した理由のようです。
核戦争が激化
発売のタイミングにより、AMD は最新の Epyc を、Intel の新しい Granite Rapids 6900P シリーズ プロセッサではなく、昨年の Emerald Rapids Xeon と比較するという贅沢な状況に陥っています。
House of Zenによると、192コアのEpyc 9965は、Intelの64コアXeon 8592+に対して、SPECrate 2017 Integerベンチマークで2.7倍のリードを獲得しています。このリードは、MySQLやビデオエンコードなどの実世界のワークロードではさらに顕著で、192コアの製品はそれぞれ3.9倍と4倍のリードを獲得しています。
ZenのTurinプラットフォームは、Intelのわずか1年前のEmerald Rapids Xeonよりも最大4倍高いパフォーマンスを誇ると主張している(クリックして拡大)
これにより、AMDのZen 5Cコアは、ワークロードによってはIntel Emerald RapidsのRaptor Coveコアとほぼ同等、あるいはそれ以上の速度を発揮することになります。もちろん、ベンダー提供のベンチマーク結果と同様に、鵜呑みにしないようご注意ください。
一方、シングルコアのパフォーマンスを追求するのであれば、より高性能な Zen 5 コアベースの Epyc がさらにリードしており、AMD は 32 コアの Epyc 9355 を同様の装備の Emerald Rapids Xeon と比較した場合、40 パーセントのリードを獲得していると主張しています。
AMDによると、さまざまなHPCワークロードにおいて、TurinのZen 5コアはIntelの第5世代XeonのRaptor Coveコアよりも最大60%高速です(クリックして拡大)
AMD によると、HPC 中心のワークロードの場合、64 コアの Epyc 9575F の Zen 5 コアは、Intel 独自の 64 コア CPU と比較して、Altair Radioss、Acusolve、Ansys Fluent、LS-DYNA などの HPC モデリングおよびシミュレーション アプリケーションで 60 パーセントのパフォーマンス上の利点を提供できるとのことです。
この特定の Epyc は、最大周波数が 5 GHz に達し、この世代のコア数とクロック速度の間のスイートスポットを示しているように見えることから際立っています。
AMD は、このバランスを、GPU をスムーズに動作させるために必要なすべての前処理と後処理、データ準備、その他のプロセスに対応できるという点で、AI の勝利と位置付けています。
ご記憶にあるかと思いますが、AMD が昨年 12 月に MI300X アクセラレータをリリースしたとき、ベンチマークの多くは Intel Sapphire Rapids ベースのシステムを使用して実施されました。
この決定は、AMDがInstinct製品群を推進するために競合他社を無視する意思を示したものの、CPUに誇りを持つ企業にとっては少々恥ずかしいものだった。Turinの発表により、AMDは自社のEpyc CPUが自社のAIアクセラレータだけでなく、競合他社の製品にも最適であると確信しているようだ。
打撃の交換
Turinの登場により、AMDはIntelに対するコア数での優位性を取り戻すことになる。Intelは来年初めまで288コアという巨大なSierra Forest Xeonの発売を控えている。しかし、AMDのコア数の多いCPUへのアプローチは、Intelとは全く異なる。
前述の通り、IntelのSierra Xeonは、簡素化された効率コアによって膨大なコア数を実現しています。これらのコアは、Pコアほどクロックが高くなく、SKUに応じて最大2.6GHzから3.2GHz程度にとどまります。また、AVX 512や同時マルチスレッドといったコア機能もサポートされていません。AMDは、クロックとキャッシュをダイ面積と交換しただけです。
そのため、Zen 5CベースのEpycとSierra Forestを比較するのは困難です。数ヶ月以内に、IntelとAMDは、自社のチップが優れ、競合製品が及ばないワークロードを見つけると予想されます。すべてのコアが同等に作られているわけではなく、単にコア数が多いからといって、必ずしもパフォーマンスやスループットが向上するわけではありません。
Intelの最新Xeonが大きな優位性を持っているように見える領域の一つはメモリ帯域幅です。これは、HPCやAIワークロードにおけるアプリケーションパフォーマンスの大きなボトルネックとなることがよくあります。これは、IntelのXeonが高速なMRDIMMをサポートしているのに対し、AMDのTurinがサポートしていないためです。
8,800 MT/sのMRDIMMを12チャネル搭載した6900Pは、単体で825 GBpsのメモリ帯域幅、つまりコアあたり6.4 GBpsのメモリ帯域幅を実現します。一方、Turinは今世代のMRDIMMをサポートしておらず、I/Oダイのメモリコントローラの最高速度は6,000 MT/sです。厳密に言うと、当初6,000 MT/sのサポートを謳っていたAMDですが、顧客からの要望があれば6,400 MT/sのサポートも提供するとしています。
ハイパースケーラーやクラウドプロバイダーではなく、6,000 MT/s DDR5 しか利用できないと仮定すると、Turin では 562 GBps、128 コアの Zen 5 プラットフォームではコアあたり 4.4 GBps、192 コアの Zen 5C プラットフォームではコアあたり 2.9 GBps となります。当然のことながら、コアあたりのメモリ帯域幅はコア数に応じて増加します。
たとえ 6,400 MT/s のシステムを入手できたとしても、Intel の MRDIMM サポートにより、帯域幅の点で AMD より優位に立つことになり、結果として HPE Cray や Eviden などの HPC ベンダー間で Xeon ビルダーとの競争が激化する可能性があります。
トリノの裏側を巡る旅
では、このパフォーマンスはどこから生まれたのでしょうか?答えはシンプルです。クロック速度の向上、コア数の増加、そしてサーバーアプリのIPCが17%も向上するという強力な組み合わせです。Turinはプロセスシュリンクの恩恵も受けています。
私たちはすでにこの夏、AMD の最新のコア アーキテクチャについて詳しく検討してきましたが、まとめると、Zen 5 では、サイクルごとに分岐予測を増やすためにフロント エンドが拡張され、遅延を抑制して帯域幅を向上させることを目的とした i-cache と op-cache の改善とともにデュアル デコード パイプラインが実装されています。
AVX-512 サポートもこの世代で改良され、Zen 4 で採用されていた「ダブル ポンプ」256 ビット アプローチではなく、完全な 512 ビット データ パスがサポートされるようになりました。
これらの利点はアーキテクチャ上のものですが、Turinのコア数増加はシリコンの形で実現されています。しかも、その量ははるかに多くなっています。前世代のGenoa EpycとBergamo Epycは、それぞれ最大12個と8個のコア複合ダイ(CCD)を搭載していましたが、Turinとそのコンパクト版では、それぞれ4個増えて16個と12個となっています。
これらのダイも TSMC のより現代的なプロセス技術で製造されており、Zen 5 ベースのチップにはファウンドリー大手の 4nm ノードが使用され、コアの多い Zen 5C ベースのチップには 3nm 技術が採用されています。
これらのダイは、I/Oダイの両側に2つのクラスターが並ぶ、お馴染みのパターンで配置されています。実際、Turinは前世代機と同じSP5ソケットを共有しているため、いくつかの例外を除けば、BIOSアップデートを行えば、そのまま交換可能です。
AMD はチップレットのコア密度を過去の世代から変えずに維持しているため、このシリコンがすべて必要になります。
Genoaと同様に、TurinのCCDはGenoaと同じ8コアと32MBのL3キャッシュを搭載しています。一方、Turin-CのCCDはBergamoと同じ16コアと32MBのL3キャッシュを搭載していますが、CCDを単一のコンピューティングコンプレックスとして統合することで、特定のマルチスレッドワークロードにおけるレイテンシの低減に貢献します。
このアプローチの利点は、AMDがコア数をモジュール式に拡張できる点です。コア数を増やす必要がある場合は、一度に8つずつ追加できます。また、先月末に発表されたIntelの6900Pシリーズプロセッサとは異なり、EpycのメモリコントローラはI/Oダイ上に配置されています。つまり、メモリ帯域幅はコア数とは独立して拡張できるため、コアごとのメモリ帯域幅を調整したいHPC顧客にとってメリットとなります。
このアプローチの潜在的な欠点の一つは、複数のCCDを通過するワークロードのレイテンシが大きくなることです。これが、IntelがAMDのよりモジュール化されたアプローチよりも、コア数の多いチップレットを少数採用した理由の一つです。しかし、実際の影響はワークロードに大きく依存するでしょう。
大量のシリコンを追加したことによるもう一つの副作用は、消費電力の増加です。Turinは、少なくとも最も高密度でクロックの高いパーツでは最大500Wの消費電力を誇ります。これはGenoaより100Wの増加です。そして、そこにSP5プラットフォームのサポートに関する懸念点があります。これらの500Wパーツは、電力需要を満たすために全く新しいマザーボードを必要とします。
CPU に 500 W というのは多すぎるように思えるかもしれませんが、Intel の Granite Rapids Xeon の多くも同様の消費電力と評価されています。
- AMDやIntelの新しいマルチコアモンスターCPUを急いで実行しないのは正しい
- Granite RapidsでIntelはAMDとの激しい攻防に再び突入
- インテルは144個のeコアを搭載したXeonでAMDのEpycに挑む
- AMD、チップとAIのライバルに挑むためシリコンの剣を研ぎ澄ます
AMDが統合戦略を展開
コア数がますます増えるにつれ、AMD は、今後数年間で交換が予定されているすべての Intel Cascade Lake サーバーを置き換えることを目標に、サーバー統合を推し進めています。
AMDは、192コアのデュアルソケットTurinプラットフォーム1台で、老朽化したCascade Lake Xeonボックス7台を置き換えることができると述べている(クリックして拡大)
AMD は現在、192 コアの Epyc 2 台でデュアルソケットの Cascade Lake システム 7 台を置き換えることができると発表しており、これにより管理者は老朽化した Xeon システム 1,000 台をわずか 131 コアの高密度システムに統合し、消費電力を 68% 削減できるという。
これはコア数のみに基づいたもので、5年間のIPCと周波数の向上は考慮されていません。これらの14システムはコア数が同じであるだけでなく、大幅に高速化します。
現状、AMDはデータセンターCPU市場の売上高の33.7%を支配していると推定しています。リサ・スー氏率いるAMDが、老朽化したXeonのユーザーを説得してIntelを退けさせることができれば、市場シェアは大きく向上する可能性があります。
しかし、コスト削減を目指すCTOにとって7:1の統合は魅力的に聞こえるかもしれないが、コア密度の高いx86プロセッサを独占しているわけではないAMDにとって、必ずしも楽な選択ではない。IntelもGranite Rapids PコアとSierra Forest EコアのXeonに関して同様の統合を主張している。
これはフェイルオーバーと復元力にも影響を及ぼします。オフラインになった単一のボックスの爆発半径が 7 ノード相当のワークロードを停止させる可能性があるためです。これは、Granite Rapid のデビュー後の最近の意見記事で、あるハゲタカ仲間が強調したリスクです。
ただし、これはAMDだけで解決できる問題ではありません。これらの課題の多くは、最新の高可用性アプローチやコンテナオーケストレーションによって軽減できます。
これは、Kubernetesクラスターで見られるような完全冗長化ではなく、フェイルオーバーメカニズムに依存することが多い、多数のベアメタルサーバーやVMを運用しているユーザーにとっては必ずしも有利とは言えません。そのため、IntelとAMDの統合の約束を実現するには、ITチームがアプリケーションスタックを最新化する必要があるかもしれません。これは、コア数の少ないパーツを使い続けるよりも大きな負担となる可能性があります。
幸いなことに、AMDは、顧客がまだ準備ができていない場合、これらの高コア数チップの採用を強制することはない。同社は、わずか8コアから192コアまで、幅広いTurinプロセッサを提供している。
AMDの最新Epycは、8コアから192コアまで、価格は527ドルから14,813ドルまで。クリックして拡大
競争が激化
AMD の Epyc がデータセンターでシェアを拡大し続ける一方で、CPU 分野の競争はますます激しくなっています。
Intel からは、最大 8 つのソケットをサポートするコア数の少ない 6700P Granite Rapids Xeon や、来年初めにリリース予定の 288 E コアのモンスター CPU など、複数の CPU が発売される予定です。
一方、Ampere Computing は、256 コア、さらには 512 コアを搭載した次世代チップで、独自の Arm ベースの CPU アーキテクチャを推進し続けています。
Armといえば、これら3社はいずれも、増加するカスタムRISCベースCPUとの競争に直面しています。Amazon、Microsoft、Googleの3大クラウドプロバイダーもCPU競争に参入しており、AWSのGravitonは現在第4世代となっています。
最近判明したように、Oracle は Ampere の株式の約 3 分の 1 を所有しており、早ければ 2027 年にこの半導体スタートアップ企業の経営権を取得するオプションも持っているため、十分な時間がかかれば、間接的にその数は 4 社に増える可能性があります。それが起こるかどうかは、待って見守るしかありません。
こうした状況の中、Turinファミリーの成長が見られるようになりました。AMDのXクラスEpycは歴史的に、主流の兄弟機種に遅れをとっていました。1.1GBのL3キャッシュを搭載したGenoa-Xは、Genoaの6か月強後に登場しました。
現時点では、これらの部品のトリノスピンについては未確認のままであり、木曜日の基調講演に先立ち報道陣に語った AMD のサーバー部門副社長 Dan McNamara 氏は、これらの部品が更新されるとしても、Epyc 4 と同じスケジュールでは行われない可能性があると示唆した。®