コメント新年は、データセンター向け半導体にとって、ここ数年で最も重大な年の一つになりそうです。主要半導体メーカーは皆、今後12ヶ月でCPUやGPUの製品ラインを刷新する予定です。
Nvidiaは2024年に向けて、多数の新しいアクセラレータ、GPUアーキテクチャ、そしてネットワークキットの投入を計画しています。Intelは、ここ数年で最も魅力的なXeonプロセッサに加え、新しいHabana Gaudi AIチップを発売する予定です。一方、MI300シリーズの発売で勢いに乗るAMDは、第5世代Epycプロセッサを市場に投入する予定です。
順不同で、2024 年に私たちが注目している、より大規模なデータセンター チップの発売をいくつか見ていきましょう。もし、見逃しているものがあると思われる場合は、コメントまたはメールでお知らせください。
NvidiaのHBM3e搭載H200 AIチップが登場
2024年に市場に登場する最初の新チップの一つに、NVIDIAのH200アクセラレータがあります。このGPUは、基本的には定評のあるH100のリフレッシュ版です。
最新チップは旧世代機よりもパフォーマンスが向上すると期待されるかもしれませんが、従来の意味ではそうではありません。スペックシートをよく見ると、浮動小数点演算性能はH100と全く同じであることがわかります。しかし、このチップのパフォーマンス向上(NVIDIAはLlama 70Bを含むLLMのパフォーマンスが最大2倍になると主張しています)は、チップのHBM3eメモリスタックによるものです。
NvidiaのHGX H200は、最大8つのH200 SXMアクセラレータを1枚のボードに搭載する予定です。
H200は最大141GBのHBM3eメモリを搭載し、4.8TB/sという驚異的な帯域幅を実現する予定です。MetaのLlama 2、Falcon 40B、Stable DiffusionなどのLLMの人気が高まるにつれ、メモリ容量と帯域幅は推論性能、つまり単一のアクセラレータまたはサーバーにどれだけの規模のモデルを収容できるか、そして同時にどれだけのリクエストを処理できるかという点に大きな影響を与えています。
最近、AMD と Nvidia のベンチマーク大失敗の分析で検討したように、この種の AI ワークロードに関しては、FLOPS はメモリ容量や帯域幅ほど重要ではありません。
ホッパーの後継者は「ブラックウェル」建築で登場
2023年の投資家向けプレゼンテーションによると、2024年にNvidiaから発売されるGPUはH200だけではない。Nvidiaはリーダーシップを確固たるものにするために、新チップのリリースサイクルを毎年に移行しており、Team Greenから最初に登場する新製品はB100となるだろう。
投資家に示されたこのスライドから判断すると、NVIDIAは1年ごとのリリースサイクルに移行する予定である。
私たちの理解では、ここでの「B」はマイクロアーキテクチャ名「Blackwell」の略称で、おそらくアメリカの統計学者デビッド・ブラックウェルにちなんで名付けられたものと思われます。この部分については、2024年に登場予定ということ以外、まだほとんど分かっていません。The Next Platformの同僚がB100について少し考察しています。
現状、AMDが新たに発売したMI300X GPUは、H200よりも高いFLOPS(演算処理能力)を誇るだけでなく、メモリ容量と速度も向上しています。特に、この米国の巨大企業Nvidiaが最近いかに守勢的な姿勢をとっているかを考えると、この状況に満足しているとは考えられません。そのため、B100はより高いFLOPSとHBM3eスタック数を実現し、アクセラレータのメモリ容量と帯域幅を新たな高みへと押し上げると確信しています。
GPU本体に加え、NVIDIAのロードマップにはGB200およびGB200NVLと呼ばれるCPU-GPUスーパーチップも含まれています。これらのプロセッサが、現行のGraceおよびGrace-Hopperスーパーチップに搭載されているArm Neoverse V2ベースのCPUコアを引き続き採用するのか、それとも次世代コアを搭載するのかはまだ不明です。
そしてB40があります。歴史的に、この種のカードは単一のGPUで実行できる小規模なエンタープライズワークロードをターゲットとしてきました。この製品はL40とL40Sに取って代わり、NVIDIAのエンタープライズGPUラインナップを単一の包括的なアーキテクチャに統合します。
Nvidiaの加速ロードマップで最も興味深いのは、おそらくネットワーク関連でしょう。NvidiaはBlackwellで800Gb/s接続への移行を目指していますが、以前調査したように、PCIe 5.0の速度が十分ではなく、PCIe 6.0の実現にもまだ時間がかかるため、これには特有の課題が伴います。
Blackwellカードがいつ登場するかはまだ未定ですが、これまでの状況から判断すると、それほど長く待つ必要はないかもしれません。NVIDIAは、アクセラレータが実際に販売される数ヶ月(時には数年)も前に発表するという長い歴史があります。
NVIDIAは2022年初頭にGrace-Hopperスーパーチップのティーザーを公開していましたが、私たちの理解では、これらの部品が顧客の手に渡り始めたのはつい最近のことです。そのため、GTCではBlackwellベースの部品に関するより詳しい情報が得られる可能性があります。
インテルは独自の全く新しいアクセラレータで新年を迎える
アクセラレータの話題に関連して、Intel は 2024 年に第 3 世代 Gaudi AI チップを発表する予定です。
この部分は、ポンテ・ヴェッキオの後継であるリアルト橋のキャンセルに伴い、少なくとも2025年にファルコン・ショアーズが登場するまでは、ハバナ・ラボのGaudi3がインテルがAIトレーニングと推論の分野で提供できる最高のものを代表しているため重要です。
NvidiaとAMDは製品リリースを何ヶ月も前から予告したり大々的に宣伝したりするのに対し、Intelはこの点について極めて口を閉ざしている。これまでに明らかになった情報のほとんどは、少なくとも9月のイノベーションイベント以降公開されている以下のプレゼンテーションスライドから得たものだ。
スライドによれば、5nm チップの Gaudi3 は、7nm バージョン 2 の 4 倍の Brain Float 16 (BF16) パフォーマンスを備え、さらにネットワーク帯域幅は 2 倍、HBM 帯域幅は 1.5 倍になるという。
通常、これらの数値は相対的なパフォーマンスを推測するための出発点となります。しかし残念ながら、そのためにはIntelがGaudi2のBF16パフォーマンスの実態を明かさなければなりません。問い合わせたところ、Gaudi3では4倍のパフォーマンス向上を謳っているにもかかわらず、Intelはそれについて語りたがりません。Intelはベンチマーク比較ではなく、実世界におけるパフォーマンスに焦点を当てたいと考えているようです。
率直に言って、これは不可解なマーケティング上の判断です。なぜなら、この主張は基準がなければ実質的に意味をなさないからです。また、x86の巨人である同社は、今回6つではなく8つのHBMスタックを使用しているようです。
Gaudi3 に加えて、中国市場向けに (米国の対中国輸出規制の範囲内にとどまるため) 再び調整された Gaudi2 のバージョンが登場すると伝えられており、Intel は、Nvidia の噂の H20 チップが中国本土に到着する前に出荷されると主張しています。
インテルがSierra ForestでクラウドCPU陣営に加わる
一方、CPU分野では、Intelは長らく遅れていたIntel 3プロセス技術を採用した2つの新製品を2024年に発表する計画です。念のため言っておきますが、Intelは突如として3nmプロセスへの移行を決めたわけではありません。同社は長年にわたり、7nmプロセスと呼んでいたこのプロセスノードの開発に取り組んできました。最終的に、マーケティング面で競合ノードのトランジスタ密度に近づけるため、Intel 4およびIntel 3という名称に変更されました。
Intel 3ベースのXeonプロセッサの最初のモデルは、2024年前半に登場予定です。コードネーム「Sierra Forest」と呼ばれるこのチップは、144コアのダイを2つ搭載し、ソケットあたり合計288個のCPUコアを搭載できます。当然ながら、これらは過去のXeonで見られたコアクラスとは異なります。これは、2021年にAlder Lakeの発売とともにPCおよびノートPC向けプロセッサに搭載され始めた、Intelの効率化コア・アーキテクチャの進化形です。
しかし、これらのチップには通常、パフォーマンス コアのセットが付属していますが、Sierra Forest はすべて e-core であり、Ampere、AMD、AWS や Microsoft などのクラウド プロバイダーによって導入されている多数のカスタム Arm CPU と競合するように設計されています。
インテルのSierra Forest Xeonに使用されているeコアは、効率とスループットを最適化した合理化されたコアアーキテクチャを備えています。
Intelの主張する優位性は、x86バイナリの大部分との互換性を維持しながら、単一のソケットまたはシャーシに他社よりも多くのコアを搭載できることです。「大多数」と表現したのは、eコアは過去のXeonと同じ機能セットを備えていないためです。
最も大きな違いの2つは、AVX512とAdvanced Matrix Extension(AMX)のサポートが全くないという点です。ここでの論点は、クラウドで広く導入されているワークロード(例えばNginxなど)の多くは、必ずしもこれらの機能の恩恵を受けていないということです。そのため、大規模なベクトル計算や行列計算にダイの大きなスペースを割くのではなく、そのスペースを各ダイにより多くのコアを搭載するために活用できるのです。
しかし、すべてのチップメーカーがこのアプローチに賛同しているわけではありません。AMDは、2023年春に発売されたBergamo Epycで、全く異なるアプローチを採用しました。これらのサーバー用プロセッサは、AMDのZen 4コアのコンパクト版であるZen 4cを採用し、クロック速度を犠牲にしてフットプリントを縮小しました。これにより、AMDは機能性を犠牲にすることなく、プロセッサパッケージあたり8個のコンピューティングダイに128個のコアを詰め込むことができました。
どちらのアプローチにもメリットがあります。ハイパーバイザーによっては、特定のCPU機能が不足しているため、あるマシンから別のマシンへのワークロードの移行が困難になる場合があります。Intelは、この夏に詳細に調査したAVX10でこの問題を克服したいと考えています。簡単に言うと、AVX10はFP16やBF16のサポートなど、多くの魅力的な機能をAVX512からAVX2にバックポートするように設計されています。その結果、512ビット幅のベクターレジスタが本当に必要な場合を除き、このような移行の問題に遭遇する可能性は低くなります。
インテル、Granite Rapids で現実に迫る
あまり知られていない分野に目を向けると、2024年後半にリリース予定のIntelのGranite Rapids Xeonがあります。Sierra Forestが多数の小さなコアを優先しているのに対し、Granite Rapidsはx86の巨人のパフォーマンスコアを中心に構築された、より従来型のXeonサーバープロセッサです。
コア数や最上位のビニングされた部品のクロック速度はまだ不明ですが、Emerald Rapidsよりも高速になると聞いています。ただし、このチップはSapphireやEmerald Rapidsよりもモジュール化されたチップレットアーキテクチャを採用し、パッケージあたり最大5つのダイ(コンピューティングダイ3つとI/Oダイ2つ)を搭載することは分かっています。
SKUに応じて、チップのコンピューティングダイの数は増減するため、IntelはAMDが長年享受してきたモジュール性を活用できます。2023年のXeonは、従来は「エクストリーム・コア・カウント(XCC)」ダイと呼ばれる、1つの大型の中コア数(MCC)ダイ、または2つの大型(Emerald)または4つの小型(Sapphire)コンピューティングダイを搭載していました。
インテルの第6世代Xeonスケーラブルプロセッサ(Sierra ForestとGranite Rapids)は、eコアとpコアのバージョンがあり、最大12チャネルのDDR5をサポートすると約束されている。
Intelの次世代Xeonは、I/O機能をコンピューティングを挟む2つのダイに分離しています。これらのI/Oダイは、過去5年間コア数で優位に立ってきただけでなく、より高速でより多くのPCIeレーンとメモリチャネルを提供してきたAMDとの差を縮める上で重要です。
2023年のHot Chipsカンファレンスで明らかになったように、Granite RapidsはAMDのEpyc 4と同じ12個のメモリチャネルを搭載し、8,800MT/sのMCR DIMMをサポートします。MCRは、チップに845GB/sのメモリ帯域幅を提供できるという点で非常に魅力的です。これは、Intelの第4世代Xeon MaxがオンボードHBMで実現できる1TB/sには及びませんが、MCR DIMMはこれに迫り、大幅に高い容量を実現します。
このチップファミリーは最大136レーンのPCIe / CXLを搭載しますが、速度はPCIe 5.0のみです。PCIe 6.0は2024年に登場する可能性がありますが、Intelの「次世代」Xeonには間に合わないでしょう。
AMDのZen 5が登場
そしてもちろん、AMDは新しいZen 5コアを搭載した第5世代Epycサーバープロセッサ「Turin」を発売する予定です。現時点では、2024年中に発売されるということ以外、この部分についてはあまり何も言えません。
タイミングを考えると、いくつかの推測ができます。このチップは、コンピューティングタイルにTSMCの4nmまたは3nmプロセス技術を採用すると予想されますが、I/Oダイのプロセスが縮小されるかどうかはまだ分かりません。
AMDの最新Epycサーバーロードマップ
これ以上は、Xitterで共有された最近のリーク情報から、AMDがラインナップ全体のコア数を再び増やす可能性があることが示唆されています。リーク情報が真実であれば、最大128個のZen 5コア、または最大192個のZen 5cコアを搭載したEpycプロセッサが登場する可能性があります。
コアコンプレックスダイ(CCD)自体は、チップレットあたりそれぞれ8コアまたは16コアのGenoaおよびBergamoから大きな変更はないようです。AMDは、汎用プラットフォームでは16個のコンピュートダイ、クラウド中心のプラットフォームでは12個のコンピュートダイを使用することで、謳い文句のコア数を達成すると報じられています。とはいえ、リーク情報が正確かどうかは、今後の動向を待つ必要があります。
AMDのEypc製品ラインは近年、より複雑化し、汎用、高性能コンピューティング、クラウド、エッジアプリケーションを網羅しています。AMDは従来、これらのチップを約1年かけてリリースしてきました。Epyc 4は2022年11月に発売され、BergamoとGenoa-Xは2023年6月に登場しました。エッジに特化したSiena製品は9月まで登場しませんでした。
- NvidiaとAMDがAIパフォーマンスの主張を巡って激しく対立する理由
- キロワットチップ時代の熱管理はどのように変化しているのか
- AMDはチップレットとコードで電力/熱問題を解決できると考えている
- 厳しい競争に直面しているインテルのリサ・スペルマンは、Xeonの課題と機会について語る
驚きが待っている
はっきり申し上げると、これは 2024 年に登場するデータセンター プロセッサの完全なリストではありません。特に AI の盛り上がりが加速し、クラウド プロバイダーがカスタム シリコンを採用し続けるにつれて、今後 12 か月の間に多くの驚きの発表があると確信しています。
Microsoft は最近、カスタム AI と CPU の分野に進出しましたが、Google はすでに数世代のテンソル処理ユニットを保有しており、独自の CPU の開発に取り組んでいるとの噂もあります。
また、ArmのNeoverseコアアーキテクチャとCompute Subsystems(CSS)IPスタックの推進にも注目していきます。後者は、Armが近年、プロセッサ全体を自ら設計するという点に最も近づいたと言えるでしょう。
Ampere、Graphcore、Cerebras、SambaNova、Groqといった半導体スタートアップ企業も数多く存在し、AIによる新たな世界秩序の中でニッチな市場を開拓しようとしています。2024年には、これらのサプライヤーのいずれかから新しいシリコン、製品、システムが発表されるのも不思議ではありません。®