Nvidiaの加速したリズムはAMDとIntelのAIへの野望に問題をもたらす

Table of Contents

Nvidiaの加速したリズムはAMDとIntelのAIへの野望に問題をもたらす

分析:生成型AIの可能性を活かそうと猛烈な競争を繰り広げる中、NVIDIAは依然として圧倒的な勝者であり、第2四半期だけで売上高が前年同期比で2倍以上に伸びています。この優位性を確保するため、GPU大手のNVIDIAは新たなアクセラレーターの開発を加速させる意向のようです。

過去数世代においては、2年ごとのリリースサイクルで競争力を維持できていました。しかし、今月初めに行われた投資家向けプレゼンテーションのスライド[PDF]によると、B100だけでなく、ArmコアとBlackwellアーキテクチャを組み合わせた新しい「スーパーチップ」や、L40およびL40Sの後継チップも登場するようです。

そこには特に驚きはありません。私たちは皆、2024年中にNvidiaの次世代アーキテクチャとB100のさまざまな形態について聞くことになると予想していました。

驚くべきはその次に起こることだ。

今月公開された投資家向けプレゼンテーションによると、Nvidia は 1 年ごとのリリースサイクルに移行する予定です。

今月公開された投資家向けプレゼンテーションによると、NVIDIAはリリース周期を2年から1年に変更する予定だ(クリックして拡大)

スライドを見ると、NVIDIAが1年ごとのリリースサイクルに移行することが示唆されています。スライドには、BlackwellベースのB100とその同世代の製品が2025年に「X100」クラスの製品に置き換えられると記されています。ここでの「X」は、Huang氏がこのアーキテクチャをどの数学者、コンピューター科学者、あるいはエンジニアに捧げるかを考えている間の仮置きだと推測されます。しかし、肝心なのは、NVIDIAが新しいGPUを迅速に展開していくつもりであるということです。

これは Intel と AMD にとって何を意味するのでしょうか?

この変化は、GPU や AI アクセラレータのリリース周期を依然として 2 年ごとに維持している AMD や Intel などのベンダーにとって潜在的な問題を引き起こします。

たとえば、AMD は、Nvidia の A100 の約 1 年後に Instinct MI200 シリーズ アクセラレータを発表し、Nvidia のスパース性のサポートを無視すれば、大幅に優れた倍精度パフォーマンスと同等の FP16 FLOPS を実現したと主張しました。

前者は、A100 と比較して、高性能コンピューティング アプリケーションにおいて同社に明らかな優位性を与えたため、欧州の Lumi や米国エネルギー省の Frontier Supercomputers などのスーパーコンピューターで非常に人気のある部品になったのも不思議ではありません。

生成AIの需要が急増する中、AMDは低精度ワークロード向けに最適化されたGPUとAPUで、AI分野におけるNVIDIAの優位性に挑戦しようとしています。しかし、姉妹サイトThe Next PlatformがまとめたMI300A/Xの性能推定値を参考にすると、AMDの最新チップはFLOPSではH100に太刀打ちできないかもしれませんが、メモリ容量では優位に立つ可能性があります。このチップは128GB~192GBのHBM3メモリを搭載する予定で、H100に対してわずかに優位に立つ可能性があります。

9月のイノベーション・カンファレンスでAIを大々的に宣伝したインテルも同様の状況にある。同社は既にCPUとGPUのリリースペースを加速させていたが、部門再編とコスト削減策の一環として、後者のリリースペースを縮小した。

この決定により、XPU CPU-GPUアーキテクチャと、アルゴンヌ国立研究所のAuroraスーパーコンピュータを支えるPonte Vecchioアクセラレータの後継であるRialto Bridgeの両方がキャンセルされました。同社はその後、再定義されたFalcon Shores設計を2024年から2025年に延期し、「新製品導入に対する顧客の期待に応え、エコシステムの構築に時間をかけるため」と主張しました。

後者は興味深いもので、IntelがGPU MaxとHabana Labsのアーキテクチャを単一プラットフォームに統合することになる。それまでは、Gaudi3がリリースされるまで、IntelのGaudi2とGPU Maxファミリーしか使えない。

Gaudi2 は A100 と比べて優れたパフォーマンスを示しましたが、昨年発売されたときには、より高性能な Nvidia の H100 がすでに発表されており、出荷までには数か月かかりました。

Habana の次世代アクセラレータである Gaudi3 は有望に見えますが、H100 や AMD の MI300 シリーズの部品を上回るだけでなく、間もなく発売される Nvidia の B100 アクセラレータにも対抗する必要があります。

これは、MI300 または Gaudi3 が必ずしも登場と同時に消え去ることを意味するものではなく、むしろそれらの関連性の期間は過去よりもはるかに短くなる可能性があると、加速ロードマップを最初に認識した SemiAnalysis の創設者 Dylan Patel 氏がThe Register に語った。

「MI300が市場で最高のチップになる可能性はある」と彼は語り、インテルのGaudi3についてはまだよく分かっていないものの、同氏が期待する通りに拡張されれば、NvidiaのH100よりも優れたチップになるだろうと付け加えた。

長期的には、Intel と AMD もこれに追随し、自社の GPU およびアクセラレータの開発ロードマップを加速する必要があると彼は予想しています。

過去にも指摘したように、IntelとAMDの次世代アクセラレータがNvidiaに勝てなかったとしても、入手性だけで優位に立つ可能性はあります。NvidiaのH100は、TSMCが提供する高度なパッケージング技術の入手性に制約されていると報じられています。この供給不足は2024年まで解消されない見込みです。AMDも、これらの高度なパッケージング技術を採用しているMI300シリーズの部品で同様の課題に直面する可能性がありますが、Intelは独自のパッケージングを行う能力を備えています。ただし、Gaudi3が実際にそれを使用しているのか、あるいはIntelがNvidiaやAMDと同じ状況にあるのかは不明です。

加速器だけではない

しかし、注目すべきは、NVIDIAがアクセラレータのリリース頻度を加速させているだけではないということです。同社はまた、Quantum InfinibandとSpectrum Ethernetスイッチングポートフォリオの開発も加速させています。

単一の GPU だけでも十分ですが、AI トレーニングや HPC アプリケーションを効率的に動作させるには、通常、大規模なアクセラレータ クラスターが必要であり、それに追いつくことができるネットワークが必要になります。

Nvidiaは2020年に長年のパートナーであるMellanoxを買収し、同社のスイッチングおよびNICポートフォリオを含むネットワークスタックの管理権を獲得した。

現時点では、NVIDIAの最速スイッチは、InfiniBandで25.6Tbps、Ethernetで51.2Tbpsが上限です。この帯域幅は、200~400Gbpsのポート群に分割されています。しかし、この新しいリリースサイクルでは、NVIDIAはポート速度を2024年に800Gbps、2025年に1,600Gbpsに引き上げることを目指しています。

これには、51.2~102.4Tbps の容量範囲のより高性能なスイッチ シリコンだけでなく、1,600Gbps QSFP-DD モジュールをサポートするより高速な 200Gbps シリアライザ/デシリアライザ (SerDes) も必要になります。

このレベルのネットワーク性能を実現するために必要な技術は既に存在しています。200Gbps SerDesはBroadcomによって既にデモされています。しかし、NVIDIAはまだこれを公開していません。Patel氏によると、NVIDIAは理想的には、InfiniBandとイーサネットの両方で102.4Tbpsを実現し、800Gbps対応NICを最大限に活用したいと考えています。

  • インテルは額を叩きながら「AI PCはわかった。AI PCを売ってくれ」と宣言した。
  • 北京が支援するサーバーチップのスタートアップ企業、Arm Chinaの元幹部らが設立
  • 最新のSiFive RISC-Vコアは、パフォーマンスの向上とAIワークロードの加速を目指しています。
  • AI処理は「アイルランドと同じくらいの電力」を消費する可能性がある

PCIeの問題

ここでNVIDIAのマスタープランに亀裂が生じ始める可能性があります。PCIeの制限により、既存のNICではこれらの高速化を短期間で維持できない可能性があります。現在、NICの実質的な限界は400Gbpsポート1つです。PCIe 6.0では800Gbpsまで到達できるはずですが、1,600Gbpsについて真剣に議論するにはPCIe 7.0が必要になります。

Intelの次世代Xeonは2024年に発売される時点ではPCIe 6.0をサポートしないことは既に分かっていますが、AMDの次期Turin Epycについても情報が不足しているため、サポートするかどうかは断言できません。しかし、過去数世代にわたり、AMDは新しいPCIe規格の展開においてIntelをリードしてきました。

しかし、NVIDIAの選択肢はx86だけではありません。同社は現在、独自のArmベースCPUを保有しています。そのため、Graceの後継機ではPCIe 6.0をサポートする計画があるのか​​もしれません。Armプロセッサは2022年初頭にPCIe 5.0のサポートをいち早く追加したプロセッサの一つであるため、再びPCIe 5.0のサポートが追加される可能性も十分に考えられます。

この問題のため、パテル氏はB100には実際には2つのバージョンが存在すると予想している。1つはPCIe 5.0を採用し、H100と同じ700ワットの熱設計電力(TDP)を持つため、顧客は既存のシャーシ設計に新しいHGXマザーボードを組み込むことができる。もう1つは消費電力がはるかに高く、水冷が必要になり、PCIe 6.0に移行するとパテル氏は考えている。

しかし、NVIDIAが2025年までに1,600Gbpsポートへの飛躍を目指しているとなると、PCIe 7.0が必要になりますが、これはまだ最終決定されていません。「標準化団体に話を聞いてみると、早くても2026年まではPCIe 7.0対応製品が登場するとは誰も思っていないようです」と氏は述べ、「そのスケジュールで実現するのは不可能です」と続けた。

もう一つの選択肢は、PCIeバスをバイパスすることです。パテル氏が指摘するように、NVIDIAは実際にはGPUとCPU間にPCIe 6.0やPCIe 7.0レベルの帯域幅を必要としておらず、NICとGPU間だけで十分です。そのため、彼はNVIDIAがボトルネックとなっているCPUをほぼバイパスすると予想しています。

実際、NVIDIAはすでにある程度これを実現しています。最近の世代では、PCIeスイッチを使用することで、ConnectX NICからGPUを効果的にデイジーチェーン接続しています。Patel氏によると、NVIDIAはこのアプローチをさらに拡張し、単一のPCIe 5.0またはPCIe 6.0 x16スロットでは対応できないポート速度を実現していく可能性が高いとのことです。

また、X100 世代については、Nvidia が 2025 年に X100 の NIC と GPU 間の通信に PCIe を廃止し、独自の相互接続を採用する可能性があるという噂があると彼は述べています。

そういえば、NVIDIAのAI開発に注目している人は、このチップメーカーの超高帯域幅NVLinksファブリックがどこに当てはまるのか疑問に思っているかもしれません。この技術は、複数のGPUをメッシュ状に結合し、実質的に1つの大きなGPUのように動作させるために使用されます。NVLinkスイッチを追加すれば、複数のノードに拡張できます。

しかし、NVLinkには、特にリーチとスケーラビリティに関して、いくつかの重大な制限があります。NVLinkはどちらよりもはるかに高速ですが、接続可能なデバイス数は256台に制限されています。これ以上の拡張を行うには、Infinibandまたはイーサネットを使用して追加のクラスターを接続する必要があります。

NVLinkメッシュはGPU間通信にしか適していません。システムへのデータの入出力やワークロードの調整には役立ちません。

その結果、Nvidia がリリーススケジュールの加速に成功するかどうかは、チップの詰まりを回避できるほどネットワークを高速化できるかどうかに大きく左右されることになる。®

もっと知りたいですか? The Next Platform による Nvidia のブループリントの解説をご覧ください。

Discover More