分析AMD が 2017 年にコード名 Naples と呼ばれる第 1 世代 Epyc プロセッサを発売した直後、Intel は、競合他社が競争力を維持するために、多数のデスクトップ ダイを接着するしかなくなったと皮肉った。
残念ながら、インテルにとって、そのコメントは時代遅れになってしまった。数年後、x86 の巨人であるインテルは、自ら接着剤に手を伸ばしたのだ。
今年段階的に展開が始まった Intel の Xeon 6 プロセッサは、マルチダイ Xeon の第 3 世代であり、AMD 独自のものとよく似た異種チップレット アーキテクチャを採用した初のデータセンター チップです。
インテルは最終的に AMD のチップレット戦略の賢明さに気付いたが、そのアプローチはまったく異なっていた。
レチクルの限界を克服する
非常に多くの CPU 設計がモノリシック アーキテクチャから離れつつある理由を簡単におさらいすると、それは主にレチクルの制限と歩留まりという 2 つの要因に帰着します。
一般的に言えば、プロセス技術の大幅な改善がない限り、コア数を増やすと必然的にシリコンサイズも増加します。しかし、ダイのサイズには実質的な限界があり、これをレチクル限界と呼んでいます。これは約800mm 2です。この限界に達すると、コンピューティング能力をさらに拡張するには、ダイの数を増やすしかありません。
CPUだけでなく、2つの大きなダイを1つのパッケージに詰め込んだ製品も数多く登場しています。Gaudi 3、NvidiaのBlackwell、IntelのEmerald Rapids Xeonなどがその例です。
マルチダイの問題は、ダイ間のブリッジが帯域幅のボトルネックとなり、レイテンシが増加する可能性があることです。これは通常、ワークロードを複数のソケットに分割するほど深刻な問題ではありませんが、一部のチップ設計者がコンピューティング能力を拡張するために、より少数の大型ダイを使用することを好んできた理由の一つです。
しかし、ダイが大きくなるほど不良率が高くなるため、製造コストは非常に高くなります。そのため、より小さなダイを多数使用することは魅力的な提案となり、AMDの設計がこれほど多くのダイを使用している理由も説明できます。最新のEpycでは最大17個のダイが使用されています。
基本的な説明はここまでにして、Intel と AMD の最新の Xeon および Epyc プロセッサの異なる設計哲学について詳しく見ていきましょう。
AMDの古い帽子
まずはAMDの第5世代Epyc Turinプロセッサから見ていきましょう。具体的には、128コアのZen 5プロセッサを取り上げます。このチップは、TSMCの6nmプロセス技術で製造された1つのI/Oダイ(IOD)を囲むように16個の4nmコア複合ダイ(CCD)を備えています。
AMDの最新Epycには最大16個のコンピューティングダイが搭載されています。 - クリックして拡大
もしこの話に聞き覚えがあるとしたら、それはAMDが第2世代Epycプロセッサの頃からこの基本方式を採用してきたからです。ちなみに、第1世代Epycには専用のI/Oダイがありませんでした。
先ほど述べたように、より小型のコンピューティングダイを多数使用すると、AMD はより高い歩留まりを実現できますが、Ryzen プロセッサと Epyc プロセッサ間でシリコンを共有できることも意味します。
これらのチップレットが見覚えがあるのは、AMDのEpycとRyzenプロセッサが実際に同じコンピューティングダイを共有しているからです。 - クリックして拡大
さらに、それぞれ 32 MB の L3 キャッシュを備えた 8 コアまたは 16 コアの CCD を使用することで、キャッシュとメモリに比例してコア数を拡張する際に AMD はさらなる柔軟性を得ることができます。
例えば、ライセンス制限のためHPCワークロードで一般的なSKUである16コアのEpycが必要な場合、これを実現する最も明白な方法は、64MBのL3キャッシュを搭載した8コアCCDを2つ使用することです。ただし、16個のCCDを使用し、それぞれに1コアしかアクティブにせず、512MBのキャッシュを搭載することも可能です。突飛な話に聞こえるかもしれませんが、これらのチップはどちらも実際に存在します。
AMDの第5世代Epycは、中央のI/Oダイを囲む16個のコンピューティングダイというおなじみのパターンを踏襲しています。 - クリックして拡大
一方、I/O ダイは、メモリ、セキュリティ、PCIe、CXL、SATA などのその他の I/O を含む、コンピューティング以外のほぼすべての処理を担当し、チップの CCD とその他のソケット間の通信のバックボーンとしても機能します。
AMD Epyc Turin I/Oダイの詳細をご覧ください。 - クリックして拡大
メモリコントローラをI/Oダイに配置することには、いくつかの長所と短所があります。長所としては、メモリ帯域幅がコア数に関係なくほぼ拡張できることが挙げられます。短所としては、特定のワークロードにおいて、メモリおよびキャッシュアクセスのレイテンシが増加する可能性があることが挙げられます。「潜在的」という言葉を強調したのは、こうした問題はワークロードに大きく依存するためです。
Xeonのチップレットの旅
Intelに目を向けると、同社のマルチダイシリコンへのアプローチはAMDとは大きく異なります。最新のXeonプロセッサは、演算ダイとI/Oダイがそれぞれ異なるヘテロジニアスアーキテクチャを採用していますが、従来はそうではありませんでした。
インテル初のマルチダイXeon(コードネームSapphire Rapids)は、モノリシックの中コア数ダイ1個、または超コア数ダイ4個を搭載し、それぞれにメモリコントローラとI/Oが搭載されていました。Emerald Rapidsも同様のパターンを採用しましたが、よりコア数の多いSKU向けに、より大型のダイを2個採用しました。
ご覧のとおり、Sapphire と Emerald Rapids の間で、Intel は 4 つの中型ダイから、ほぼ 2 つの限られたダイに切り替えました。 - クリックして拡大
このすべてが Xeon 6 で変わりました。Intel は、I/O、UPI リンク、アクセラレータを、Intel 3 で構築された中央の 1 つから 3 つのコンピューティング ダイの両側に配置された、Intel 7 プロセス ノードで製造された 2 つのダイに移動しました。
後ほど説明する理由により、ここでは、多数のコアを持つ Sierra Forest 製品ではなく、Intel のより主流の Granite Rapids Xeon 6 プロセッサに主に焦点を当てます。
Intelのコンピューティングダイを見てみると、AMDとの大きな違いが一目瞭然です。各コンピューティングタイルには少なくとも43個のコアが搭載されており、SKUに応じてコアのオン/オフを切り替えることができます。つまり、Intelは128コアを実現するのに必要なダイの数はAMDよりもはるかに少ないのですが、面積が大きいため歩留まりが低下する可能性があります。
SKUに応じて、Granite Rapidsは1~3個のコンピューティングダイを2つのI/Oダイの間に挟んで使用します。 - クリックして拡大
コア数の増加に加え、Intelはこれらのチップのメモリコントローラをコンピューティングダイ自体に搭載することを選択しました。これにより、ダイあたり4つのチャネルがサポートされます。理論上はアクセスレイテンシは低くなりますが、12個のメモリチャネル全てを利用するには、3つのダイすべてにメモリを搭載する必要があります。
先月取り上げた6900Pシリーズの製品については、すべてのSKUに3つのコンピューティングダイが搭載されているため、この点を心配する必要はありません。ただし、これは72コアバージョンがパッケージ上のシリコンのほんの一部しか使用していないことを意味します。また、先ほど取り上げた16コアのHPC向けEpycについても同じことが言えます。
一方、来年初めに発売予定のIntel 6700Pシリーズは、必要なメモリ帯域幅とコア数に応じて、1つまたは2つのコンピュートダイを搭載します。つまり、メモリはハイエンドモデルでも8チャネルに制限され、コンピュートダイが1つの構成では4チャネルまでしか使用できない可能性があります。HCCダイとLCCダイのメモリ構成についてはまだ多くの情報がないため、Intelがこれらのモデルのメモリコントローラーを強化した可能性があります。
AMDのEpycと同様に、IntelのXeonは現在、コンピューティングダイとI/Oダイを備えた異種チップレットアーキテクチャを採用しています。 - クリックして拡大
IntelのI/Oダイもかなり薄く、ストレージ、周辺機器、その他のソケットとの通信用にPCIe、CXL、UPIリンクを組み合わせて搭載しています。これらに加えて、ダイレクトストリーム(DSA)、インメモリ分析(IAA)、暗号化/復号化(QAT)、ロードバランシング用のアクセラレータも多数搭載されています。
I/O ダイ上にアクセラレータを配置した理由の 1 つは、チップに出入りするデータにアクセラレータを近づけるためだと言われています。
- インテルとAMD、テクノロジー界の巨人たちと提携しx86 ISAの全面的見直しを図る
- AMD、TurinのデビューでEpycコア数を192に増加、クロックは最大5GHzに
- Granite RapidsでIntelはAMDとの激しい攻防に再び突入
- AMDは爆発半径の拡大やメニーコアチップのライセンス料のリスクを軽視
ここからどこへ行くのでしょうか?
表面的には、来年前半に発売予定の Clearwater Forest というコードネームを持つ Intel の次世代マルチコア プロセッサは、2 つの I/O ダイと 3 つのコンピューティング タイルを備え、Granite Rapids と似た型のように見えます。
縮小されたGranite Rapidsのように見えるかもしれませんが、どうやらこれは構造用シリコンで、その下にさらに多くのチップレットが隠されているようです。 - クリックして拡大
しかし、見た目は誤解を招くものです。私たちの理解では、これら3つのコンピューティングダイは、実際には構造用シリコンで、その下には多数の小型コンピューティングダイが隠されており、これらのダイ自体はアクティブシリコンインターポーザーの上に収まっています。
インテルが今年初めに公開したレンダリング画像によると、Clearwater Forestは1パッケージあたり最大12個のコンピューティングダイを搭載できる可能性がある。シリコンインターポーザーの使用は決して新しいものではなく、有機基板で一般的に見られるチップ間帯域幅の拡大やレイテンシの低減など、多くの利点がある。これは、インテルのコア数が最も多いSierra Forestに搭載されている144コアのコンピューティングダイ2個とは大きく異なる。
インテルが今年初めに公開したこのレンダリングを参考にすると、クリアウォーターフォレストにはグラナイトラピッズよりも多くのチップレットが隠されていることになる - クリックして拡大
もちろん、クリアウォーターの森林で使用される技術を説明するレンダリングは、来年それが到着したときに私たちがまさにそれを手に入れることになるという意味ではありません。
おそらくより大きな疑問は、AMDがチップレットアーキテクチャを今後どこへ向かわせるのかということだろう。AMDの128コアTurinプロセッサを見ると、パッケージ上にシリコンを追加できる余地はあまりないように見えるが、Zenのハウスにはまだ選択肢がいくつかある。
まず、AMDはチップレットを追加するためのスペースを確保するために、単純にパッケージを大きくするかもしれません。あるいは、より小さなダイにより多くのコアを詰め込むことも可能です。しかし、AMDの第6世代Epycは、最終的にはInstinct MI300シリーズアクセラレータにかなり似たものになるのではないかと予想しています。
MI300Aは、HPCワークロード向けに、24個のZen 4コア、6個のCDNA 3 GPUダイ、および128GBのHBM3メモリを1つのパッケージに統合しています - クリックして拡大
ご記憶にある方もいらっしゃるかと思いますが、MI300X GPUと同時に発売されたAPUは、チップのCDNA3タイル2枚を3枚のCCDに置き換え、合計24個のZen 4コアを搭載したものです。これらの計算タイルは4つのI/Oダイ上に積み重ねられ、8つのHBM3モジュールバンクに接続されています。
繰り返しますが、これはあくまで推測に過ぎませんが、AMDが同様のことをして、メモリとGPUダイをすべてCCDに置き換えることは容易に想像できます。このような設計は、ダイ間通信の帯域幅拡大とレイテンシの低減というメリットも得られると考えられます。
これが実際に実現するかどうかは、時が経てば分かるでしょう。AMDの第6世代Epycは2026年後半まで登場しないと思われます。®