ラックスケールネットワークは、大規模なAIトレーニングと推論ワークロードの新たなトレンドです。

Table of Contents

ラックスケールネットワークは、大規模なAIトレーニングと推論ワークロードの新たなトレンドです。

分析AI ネットワークはそれほど複雑ではないと考えていた場合、Nvidia、AMD、そして近々 Intel などのラックスケール アーキテクチャの台頭により、新たな複雑さが生じています。

一般的にイーサネットや InfiniBand を使用するスケールアウト ネットワークと比較すると、これらのシステムの中核となるスケールアップ ファブリックでは、アクセラレータごとに数桁高い帯域幅を提供する独自の相互接続テクノロジ、または少なくとも新興の相互接続テクノロジが採用されていることが多いです。

たとえば、Nvidia の第 5 世代 NVLink 相互接続は、現在の Ethernet や InfiniBand と比べて、各アクセラレータに 9 ~ 18 倍の高い総帯域幅を提供します。

この帯域幅は、GPUの演算処理能力とメモリが物理的に複数の異なるサーバーに分散されている場合でも、プールできることを意味します。NVIDIAのCEO、ジェンスン・フアン氏がGB200 NVL72を「巨大な1つのGPU」と呼んだのは、冗談ではありませんでした。

こうしたラックスケール アーキテクチャへの移行は、OpenAI や Meta などのモデル ビルダーの需要によって大きく推進されており、主にハイパースケール クラウド プロバイダー、CoreWeave や Lambda などの新クラウド オペレーター、および AI ワークロードをオンプレミスで維持する必要がある大企業を対象としています。

ターゲット市場を考えると、これらのマシンは決して安くはありません。姉妹サイトであるThe Next Platformでは、NVL72ラック1台あたりのコストを350万ドルと見積もっています。

誤解のないよう申し上げますが、こうしたラックスケールアーキテクチャを可能にするスケールアップファブリックは、全く新しいものではありません。ただ、これまでは単一ノードを超える拡張はほとんどなく、通常は8基のGPUが上限でした。例えば、AMDが新たに発表したMI350シリーズシステムに搭載されているスケールアップファブリックをご覧ください。

AMDのMI350シリーズGPUは、8つのGPUと同数の400Gbps NIC、そして2つのx86 CPUを組み合わせた、かなり標準的な構成となっている。

AMDのMI350シリーズGPUは、8つのGPUと同数の400Gbps NIC、そして2つのx86 CPUを組み合わせた標準的な構成を採用しています - クリックして拡大

ご覧のとおり、各チップは全対全トポロジで他の 7 つのチップを接続します。

NVIDIAのHGX設計は、4GPUのH100システムと同じ基本テンプレートを踏襲していますが、より普及している8GPUノード向けに4つのNVLinkスイッチを追加しています。NVIDIAによると、これらのスイッチは通信時間を短縮する利点がある一方で、複雑さも増します。

AMDの8GPUノードで見られるようなオールツーオールのメッシュではなく、NvidiaのHGXアーキテクチャは、Volta世代に遡ってNVLinkスイッチを使用してGPUをメッシュ化しています。

AMDの8GPUノードで見られるようなオールツーオールのメッシュではなく、NvidiaのHGXアーキテクチャは、Volta世代に遡ってNVLinkスイッチを使用してGPUをメッシュ化しています - クリックして拡大

ラックスケールへの移行に伴い、この基本的なトポロジーは単純にスケールアップされます。少なくともNvidiaのNVLシステムではそうです。AMDの場合、オールツーオールのメッシュだけでは不十分であり、スイッチが不可欠になります。 

NvidiaのNVL72スケールアップアーキテクチャの詳細

House of Zenの次期Heliosラックについては後ほど詳しく紹介しますが、まずはNvidiaのNVL72を見てみましょう。NVL72は市場に出てから少し時間が経っているので、かなり詳しい情報が得られます。

簡単にご説明しますと、このラックスケールシステムは、18台のコンピューティングノードに72基のBlackwell GPUを搭載しています。これらのGPUはすべて、9台のブレードに2つずつ配置された18個の7.2TB/s NVLink 5スイッチチップを介して接続されています。

私たちの理解では、各スイッチASICは72個のポートを備え、それぞれ800Gbps(100GB/秒)の双方向帯域幅を備えています。一方、NVIDIAのBlackwell GPUは、ラック内のスイッチごとに1つずつ、合計18個のポートに分散された1.8TB/秒の帯域幅を誇ります。結果として、トポロジは次のようになります。

ラック内の各 GPU は、ラックの 9 個の NVLink 5 スイッチのそれぞれにある 2 つの NVLink ポートに接続します。

ラック内の各 GPU は、ラックの 9 つの NVLink 5 スイッチのそれぞれにある 2 つの NVLink ポートに接続します。 - クリックして拡大

この高速なオールツーオール相互接続ファブリックにより、ラック内のどの GPU も他の GPU のメモリにアクセスできます。

なぜスケールアップするのか?

Nvidiaによると、これらの大規模な計算領域により、GPUははるかに効率的に動作できるという。AIトレーニングワークロードにおいて、同社のGB200 NVL72システムは、同等数のH100と比較して最大4倍の速度を発揮すると見積もっている。ただし、コンポーネントチップは同等の精度で2.5倍の性能しか提供していない。

一方、推論に関しては、Nvidia は、ラック スケール構成が最大 30 倍高速であると述べています。これは、モデルが必ずしもすべてのメモリ容量や計算の恩恵を受けていない場合でも、さまざまなレベルのデータ、パイプライン、テンソル、エキスパートの並列処理を採用して、そのすべてのメモリ帯域幅を活用できるためです。

そうは言っても、Nvidia の Grace-Blackwell ベースのラックには 13.5 TB から 20 TB の VRAM があり、AMD の今後の Helios ラックには約 30 TB の VRAM があることから、これらのシステムは明らかに、BF16 で実行するには 4 TB のメモリを必要とする Meta の (明らかに遅れている) 2 兆パラメータの Llama 4 Behemoth のような極めて大規模なモデルに対応するように設計されている。

モデルが大型化しているだけでなく、LLMの短期記憶とも言えるコンテキストウィンドウも大型化しています。例えば、MetaのLlama 4 Scoutは1090億パラメータとそれほど大きくはなく、BF16で実行するのに218GBのGPUメモリしか必要ありません。しかし、1000万トークンのコンテキストウィンドウには、特にバッチサイズが大きい場合は、その数倍のメモリが必要になります。(LLMのメモリ要件については、LLMを本番環境で実行するためのガイドで説明しています。)

AMD初のスケールアップシステムHeliosについて推測する

AMD が MI400 シリーズ アクセラレータでラックスケール アーキテクチャを採用したのも、この理由によるものであることは間違いありません。 

AMDは今月初めに開催されたAdvancing AIイベントで、Heliosのリファレンスデザインを発表しました。簡単に言うと、このシステムはNVIDIAのNVL72と同様に、72基のMI400シリーズアクセラレータ、18基のEPYC Venice CPU、そしてAMDのPensando Vulcano NICを搭載し、来年発売される予定です。

システムの詳細はまだ不明ですが、スケールアップ ファブリックが 260 TB/秒の総帯域幅を提供し、新しい UALink を Ethernet 経由でトンネリングすることがわかっています。

ご存知ない方のために説明すると、Ultra Accelerator Link規格は、スケールアップネットワーク向けのNVLinkのオープンな代替規格として注目されています。Ultra Accelerator Linkコンソーシアムは4月に最初の仕様を公開しました。

GPUあたり約3.6TB/秒の双方向帯域幅を誇るHeliosは、同じく来年発売予定のNvidiaの第1世代Vera-Rubinラックシステムと同等の性能となります。AMDがどのようにしてこれを実現するのかは、推測するしかありません。そこで、調べてみました。

AMD Heliosシステムは標準的な19インチラックにぴったり収まりません

AMD Heliosシステムは標準の19インチラックにぴったり収まりません - クリックして拡大

AMDの基調講演で確認したところ、システムラックには5つのスイッチブレードが搭載されており、それぞれに2つのASICが搭載されているようです。ラックあたり72基のGPUを搭載しているという状況を考えると、この構成は少し奇妙に感じます。

最も単純な説明は、スイッチブレードが5つあるにもかかわらず、実際にはスイッチASICが9つしかないということです。これを実現するには、各スイッチチップに800Gbpsポートが144個必要になります。これはイーサネットとしては少々異例ですが、NvidiaがNVLink 5スイッチで行ったこととそれほど変わりません。ただし、帯域幅は半分でASICの数は2倍です。

結果は、Nvidia の NVL72 に非常によく似たトポロジになります。 

AMD が 72 個の GPU を接続する最も簡単な方法は、144 ポートの 800 Gbps スイッチを 9 個使用することです。

AMDが72個のGPUを接続する最も簡単な方法は、144ポートの800Gbpsスイッチを9台使うことだ。 - クリックして拡大

問題は、少なくとも私たちの知る限り、そのようなレベルの帯域幅を提供できるスイッチASICは現時点で存在しないことです。数週間前に詳しく検証したBroadcomのTomahawk 6は、最大128個の800Gbpsポートと102.4Tbpsの総帯域幅を備え、最も近い性能を備えています。

記録によると、AMD が Helios に Broadcom を使用しているかどうかはわかりません。これはたまたま、Nvidia 製ではない、公開されている数少ない 102.4Tbps スイッチの 1 つであるというだけです。

しかし、Heliosにこれらのチップを10個搭載したとしても、AMDが主張する260TB/秒の帯域幅を実現するには、さらに800Gbpsイーサネットポートが16ポート必要になります。一体何が問題なのでしょうか?

HeliosはNvidiaのNVL72とは異なるトポロジを使用していると推測されます。Nvidiaのラックスケールアーキテクチャでは、GPUはNVLinkスイッチを介して相互に接続されます。

ただし、AMD の Helios コンピューティング ブレードは、各 GPU を他の 3 つの GPU に接続する 3 つのメッシュ リンクを備えているものの、MI300 シリーズのチップ間メッシュを維持するようです。 

AMD MI400 シリーズ GPU がノード内でチップ間メッシュを維持すると仮定すると、10 スイッチのスケールアップ ファブリックがより合理的になります。

AMD MI400シリーズGPUがノード内でチップ間メッシュを維持すると仮定すると、10スイッチのスケールアップファブリックがより理にかなっていることが分かります。 - クリックして拡大

もちろんこれはすべて推測ですが、数字はかなりうまく一致しています。

当社の推定によると、各GPUはノード内メッシュに600GB/秒(12x200Gbpsリンク)の双方向帯域幅を割り当て、スケールアップネットワークには約3TB/秒(60x200Gbpsリンク)の帯域幅を割り当てています。これは、スイッチブレードあたり約600GB/秒に相当します。

各コンピューティング ブレード内の 4 つの GPU をメッシュ化すると、スケールアップ トポロジは次のようになります。

各コンピューティングブレードの 4 つの GPU をメッシュ接続すると、スケールアップ トポロジは次のようになります。 - クリックして拡大

ポート数が多すぎると思われるかもしれませんが、実際には800Gbpsポートが約60個、あるいは場合によっては1.6Tbpsポートが30個に集約される見込みです。これは、IntelがGaudi3システムで行ったことと似ています。私たちの理解では、実際のケーブル配線は、NVIDIAのNVL72システムと同様に、ブラインドメイトバックプレーンに統合される予定です。ラックのネットワークを手作業で接続しなければならないと心配していた方も、ご安心ください。

このアプローチにはいくつかの利点があります。もし私たちの考えが正しければ、各Heliosコンピューティングブレードは互いに独立して機能します。一方、NVIDIAはHPCアプリケーション向けにGB200 NVL4という別のSKUを提供しています。これは上の図のように4つのBlackwell GPUをメッシュ化しますが、スケールアップのためのNVLinkの使用はサポートしていません。

しかし、もう一度言いますが、これが AMD が行っていることだという保証はありません。これは、私たちの最善の推測にすぎません。

スケールアップはスケールアウトを止めることを意味しない

AMD と Nvidia のラックスケール アーキテクチャによって実現される大規模なコンピューティング ドメインでは、Ethernet、InfiniBand、または OmniPath (はい、これらが戻ってきました!) が後退すると思われるかもしれません。

現実には、こうしたスケールアップ型ネットワークはラック1台分を超えるほどの拡張は不可能です。NvidiaのNVL72やおそらくAMDのHeliosのようなシステムで使用されている銅線のフライオーバーケーブルでは、そこまでの距離まで到達できません。

以前検討したように、シリコンフォトニクスは状況を変える可能性を秘めていますが、この技術は統合において独自のハードルに直面しています。NVIDIAが600kWラックへの道筋を描いているのは、単にその意志があるからではなく、こうしたスケールアップネットワークをラックから脱却させるために必要なフォトニクス技術が間に合わないと予想しているからでしょう。

したがって、72 基以上の GPU が必要な場合(そして何らかのトレーニングを行う場合は必ず必要になります)、スケールアウト ファブリックが必要になります。実際には 2 つのファブリックが必要です。1 つはバックエンドのコンピューティングを調整するためのもので、もう 1 つはフロントエンドのデータ取り込みのためのものです。

ラックスケール化によって、スケールアウトに必要な帯域幅が削減されたようには見えません。少なくともNVL72に関しては、NVIDIAは今世代でもNICとGPUの比率を1:1に維持しています。通常、従来のフロントエンドネットワークがストレージとの間でデータをやり取りするために、ブレードごとに2つのNICまたはデータ処理ユニット(DPU)ポートが追加されます。

これはトレーニングには理にかなっていますが、ワークロードが単一の72GPUコンピューティングとメモリ領域に収まる場合、推論には厳密には必要ではないかもしれません。ネタバレ注意:詳細が不明な巨大な独自モデルを実行しているのでない限り、おそらく可能です。

  • Omni-PathがAIとHPCのメニューに復帰、NvidiaのInfiniBandへの新たな挑戦
  • ブロードコムは102.4T光子スイッチでNVIDIAのAIネットワーク帝国にトマホークを向ける
  • HPE Arubaは、ネットワークに問題が発生した場合、AIがそれを解決してくれると自慢している。
  • ラックスケールは増加傾向にありますが、まだすべての人に適しているわけではありません

良いニュースとしては、今後 6 ~ 12 か月以内に、非常に高基数スイッチが市場に登場する予定です。

BroadcomのTomahawk 6については既に触れましたが、これは64個の1.6Tbpsポートから1,024個の100Gbpsポートまでをサポートします。また、来年発売予定のNvidiaのSpectrum-X SN6810も注目です。こちらは最大128個の800Gbpsポートを搭載し、シリコンフォトニクス技術を採用します。一方、NvidiaのSN6800は、512個のMPOポートを搭載し、各ポート800Gbpsに対応します。

これらのスイッチは、大規模なAI導入に必要なスイッチの数を大幅に削減します。128,000個のGPUを400Gbpsでクラスター接続するには、約10,000台のQuantum-2 InfiniBandスイッチが必要です。51.2Tbpsのイーサネットスイッチを選択すれば、その数は実質的に半分になります。

102.4Tbps スイッチングに移行すると、その数は 2,500 に減少します。また、200Gbps ポートで済む場合は、基数が十分に大きいため、大規模な AI トレーニング クラスターでよく見られる 3 層ファット ツリー トポロジではなく、2 層ネットワークで済むため、必要な数は 750 だけになります。®

Discover More