インテルはCPU上でAIを実行したいと考えており、第5世代Xeonがその実現に適していると述べている。

Table of Contents

インテルはCPU上でAIを実行したいと考えており、第5世代Xeonがその実現に適していると述べている。

インテルは木曜日にニューヨークで開催された AI Everywhere イベントで、より多くのコア、キャッシュ、機械学習能力を備えた第 5 世代 Xeon スケーラブル プロセッサを発表しました。

x86の巨人であるIntelは、このチップが専用AIアクセラレータの入手に苦労している顧客を獲得するのに役立つことを期待しており、このプロセッサを「間違いなくAIに最適なCPU」と宣伝しています。この主張は、IntelがAIアクセラレーション、今回の場合はAdvanced Matrix Extensions(AMX)命令をデータセンター向けチップに組み込んだ数少ないチップメーカーの1つであるという事実によって裏付けられていることは間違いありません。

1年以上の延期を経て今年1月に発売されたばかりのSapphire Rapidsと比較すると、Intelによると、第5世代XeonはAI推論が最大1.4倍高速で、確かに小規模なさまざまな機械学習アプリケーションで許容できるレイテンシを実現できるという。

IntelのCPUアクセラレーションAI戦略を掘り下げる前に、チップ自体を見てみましょう。今年はXeonファミリーのリフレッシュイヤーですが、Intelはチップの性能と効率を前世代と比べて大幅に向上させるために、内部構造にかなりの改良を加えています。

チップ数は少なく、コアとキャッシュは多い

Emerald Rapids は、前世代機に比べていくつかの注目すべき改良点をもたらしており、主にコア数の増加と L3 キャッシュの形で現れています。

新しいチップは最大64コアを搭載できるようになりました。2024年を目前に控えた発売のチップとしては、コア数はそれほど多くありません。AMDは2019年にEpyc 2のリリースでこの数字を達成しており、現在ではクラウドプロバイダーを含むほとんどのチップメーカーが、72、96、または128以上のコアを搭載したチップを展開しています。

朗報としては、1月のSapphire Rapidsの発売とは異なり、今回はコア数が最も多いパーツが4ソケットや8ソケットの大型プラットフォームに限定されていないことです。これまで、IntelのメインストリームXeonは56コアが上限でした。残念なことに、大規模なマルチソケットサーバーが必要な場合、少なくとも来年まではSapphire Rapidsしか選択肢にありません。Intelの第5世代Xeonは2ソケットプラットフォームに限定されているからです。

AMD が昨年 Epyc 4 パーツのコア数を 96 個に増やしたのと同様に、Intel もコア数を増やすためにチップレットをさらに多く使用すると思われるかもしれないが、そうではない。

Intel の第 5 世代 Xeon では、今年初めの Sapphire Rapids で見られたよりも少ない数の大型コンピューティング タイルが使用されています。

インテルの第5世代Xeonは、今年初めのSapphire Rapidsで見られたよりも、より少ないサイズのコンピューティングタイルを使用しています。 - クリックして拡大

一体型ヒートスプレッダーを取り外すと、Sapphire Rapidsと比べてチップレットの配置がはるかにシンプルになっていることがわかります。Emerald Rapidsでは、4つのコンピューティングタイルをメッシュ状に組み合わせる代わりに、XCCダイと呼ばれる2つのダイに集約され、それぞれ最大32コアを搭載しています。 

これにはいくつかの利点があります。まず、ダイ数が減ることでデータ移動が減り、消費電力が削減されます。このアプローチの結果として、これらのエクストリームコア数(XCC)ダイは、数は少ないものの、物理的に大きくなります。通常、ダイが大きくなると歩留まりは低下しますが、Sapphire RapidsとEmerald Rapidsの両方で使用されているIntel 7プロセス技術は、現時点ではかなり成熟しています。

コア数の少ない製品については、Intelは引き続き単一のモノリシックダイを採用しています。IntelがMCC(中コア数ダイ)と呼ぶこれらのダイは、最大32コアまで搭載可能です。今世代の新機能は、EE-LCCと呼ばれるさらに小型のダイが利用可能になったことです。EE-LCCは最大20コアまで搭載可能です。

Emerald Rapidsは、コア数の増加に加え、L3キャッシュ容量が320MBと大幅に増加しています。これは、前世代のL3キャッシュ容量112.5MBから大幅に増加しています。この大容量キャッシュと、よりシンプルなチップレットアーキテクチャの組み合わせが、前世代比1.21倍のパフォーマンス向上に大きく貢献しています。

最後に、コアへの供給を維持するために、Intelはより高速なDDR5メモリのサポートを最大5,600 MT/sまで拡張しました。このチップは依然としてメモリチャネル数が8つ(AMDのEpyc 4やAWSのGraviton 4より4つ少ない)ですが、最高スペックのチップではピーク帯域幅368 GB/s、つまりコアあたり約5.75 GB/sを実現しています。

これらをあまり信用しないでください。しかし、少なくともコアごとの比較では、Intel によれば、Emerald Rapids Xeon は AMD の Epyc の最大 2.5 倍のパフォーマンスを提供します。

これらを鵜呑みにしないでください。少なくともコア単位で比較すると、Intel は Emerald Rapids Xeon が AMD の Epyc の最大 2.5 倍の性能を発揮すると発表しています。 - クリックして拡大

Intelは、64コアのXeonプロセッサと同等のコア数を持つEypc 9554を様々なベンチマークで比較した結果、第5世代XeonがAMDのEpyc 4プロセッサに対して競争優位性を示していると主張している。しかし、いつものように、これらの結果は鵜呑みにしてはならない。ベンチマークではコア数で優位性を示しているものの、AMDのEpyc 4プラットフォームが50~100%多いコア数で提供可能であるという事実は考慮されていない。つまり、Intelのコア数が実際にはより高速であるとしても、AMDはデュアルソケットサーバーにさらに多くのコアを搭載できる可能性があるのだ。

CPUはAI推論に使えるのか?インテルはそう考えているようだ

AI アクセラレータの需要が供給をはるかに上回る中、Intel は Emerald Rapids Xeon を推論に最適なプラットフォームとして推進しており、AMX アクセラレータの機能を強化するためにシリコンにいくつかの注目すべき改良を加えました。

特に、IntelはAVX-512およびAMXブロックのターボ周波数を調整し、これらの命令のアクティブ化に伴うパフォーマンスの低下を軽減しました。これにより、アーキテクチャの改善に加え、特定のワークロードにおいて、前世代機と比較して推論パフォーマンスが42%向上したとIntelは主張しています。

しかし、GPT-4、Meta's Llama 2、Stable DiffusionといったLLM(有限モデルモデル)が大流行する中、IntelはCPU上でより小規模なモデルを実行できる能力も強調しています。こうしたワークロードでは、メモリ帯域幅とレイテンシが重要な要素となります。この点では、チップの高速な5600 MT/s DDR5メモリが役立ちますが、HBMの代替にはなりません。Intelは実際にHBMを搭載したCPUを製造していますが、AuroraやCrossroadsといったスーパーコンピューターで使用されているXeon Maxシリーズプロセッサは、今世代では復活していません。

インテルによると、大規模言語モデルは、約200億のパラメータまで、第5世代Xeonの能力の範囲内にあるという。

インテルによると、大規模言語モデルは、約200億のパラメータまで、第5世代Xeonの能力の範囲内にあるとのことだ - クリックして拡大

それでも、インテルは、デュアルソケット Xeon プラットフォームを使用する GPT-J モデルで、プロンプトに応じて単語やフレーズを生成できる速度である次のトークンのレイテンシを約 25 ミリ秒に達成できると述べています。

しかし、グラフからわかるように、パラメータ数が増えるとレイテンシも増加します。それでも、IntelはLlama 2 13Bモデルの実行時に62ミリ秒という低レイテンシを実現できたと述べています。これは、チップメーカーが適切と考える100ミリ秒を大きく下回る数値です。

Intelは約200億パラメータまでのモデルで許容可能なレイテンシを実現できたと聞いています。さらに、Metaの700億パラメータLlama 2モデルのようなモデルを4つのデュアルソケットノードに分散させることで、許容可能な秒トークンレイテンシを実現できることを実証しました。 

このような制限があるにもかかわらず、Intelは顧客からCPU上での推論実行に関する支援を求められていると主張しており、それは疑う余地がありません。LLMやその他の機械学習ワークロードを許容可能なレベルのパフォーマンスで実行できれば、特に昨今のGPUの天文学的な価格を考えると、コストを大幅に削減できる可能性があります。

しかし、1,750億のパラメータを持つGPT-3のようなより大規模なモデルを実行したい人にとっては、Intel独自のHabana Gaudi2のような専用のAIアクセラレータがすぐになくなることはないようです。

そういえば、IntelはGaudi3を2024年にリリースし、NvidiaのH100とAMDのMI300Xに対抗すると約束していました。しかし、Chipzillaはこのチップについてこれ以上の情報は提供していません。

  • AMDはMI300シリーズAPUとGPUを組み合わせたシリコンサンドイッチでNvidiaのAI帝国に挑戦する
  • AWS、AI向けにコア満載のGraviton4とより強力なTrainiumアクセラレーターを発表
  • マイクロソフトと同様に、グーグルもクラウドでAIをユーザーの頭上に注ぎ込むのを止めることはできない

最高の瞬間はまだ来ていない

Intel の Emerald Rapids Xeon によってもたらされた改良にもかかわらず、このチップの人気の多くは、すでに同社の次世代データセンター部品に奪われてしまっている。

インテルはここ数ヶ月、パフォーマンスと効率に優れたコアを持つXeon(それぞれコードネーム「Granite Rapids」と「Sierra Forest」)の発表を予告してきました。これらのパーツは、コア数が大幅に増加し、より高速で大容量のメモリをサポートするほか、長らく開発が遅れていた7nm(別名Intel 3)プロセス技術をいち早く採用する製品の一つとなることが期待されています。

Sierra Forest は来年の前半にリリースされる予定で、1 つのソケットに最大 288 個の効率コア (コンピューティング タイルあたり 144 個のコア) が搭載される予定です。

一方、Granite Rapids は 2024 年後半に登場予定です。今夏の Intel Innovation で明らかになったように、このチップは、チップの上下のエッジに 1 組の I/O ダイが配置された最大 3 つのコンピューティング タイルを備えた新しいモジュラー チップレット設計を採用します。

IntelはGranite Rapidsがさらに何コア搭載するかをまだ発表していませんが、今夏のHot Chipsでは、136のPCIeレーンと12のメモリチャネルを搭載し、8,800 MT/sのMCR DIMMをサポートすることを明らかにしました。後者により、チップのメモリ帯域幅は約845 GB/sに向上し、LLM推論性能に大きく貢献するはずです。

もちろん、これらのチップは真空中で発売されるわけではありません。AMDは、コードネーム「Turin」と呼ばれる第5世代Epycプロセッサを来年中にリリースする予定です。また、大手クラウドプロバイダーの多くが、独自のArmベースCPUを発表しています。®

Discover More