AIインフラストラクチャに関して言えば、分析GPUが話題の中心です。しかし、GPUはパズルの重要なピースである一方で、数兆パラメータのモデルを大規模に学習・実行するためにGPUを活用するのは、相互接続ファブリックの存在です。
これらの相互接続は、パッケージ自体のダイ間通信、システム内のチップ間通信、あるいは数十万のアクセラレータに拡張できるシステム間ネットワークなど、複数のドメインにまたがります。
これらの相互接続の開発と統合は容易ではありません。NVIDIAが今日の強力な企業である理由は、まさにこれにあると言えるでしょう。しかし、Broadcomはここ数年、スケールアウト型イーサネットファブリックからパッケージ自体に至るまで、幅広い技術を静かに開発してきました。
また、NVIDIAとは異なり、Broadcomは商用シリコンを扱っています。同社はチップや知的財産を誰にでも販売しており、多くの場合、Broadcomが関与していることに気付くことはないでしょう。実際、GoogleのTPUがBroadcomのIPを多用していることは、現時点ではほぼ確実です。AppleもBroadcomの設計を採用したAI用サーバーチップを開発していると噂されています。
特にハイパースケーラーにとって、このモデルは非常に理にかなっています。なぜなら、すべてをつなぎ合わせる方法を見つけるために車輪の再発明をするのではなく、差別化されたロジックの開発に努力を集中できるからです。
スイッチングに根ざした
Broadcomと聞いてまず思い浮かぶのは、VMwareの買収による巨額の価格設定の問題でしょう。しかし、そうでない場合は、イーサネットスイッチングを思い浮かべるかもしれません。
Meta、xAI、Oracleなどの企業が導入しているGPUの数は膨大で、注目を集めるかもしれませんが、それらを接続するにはどれほどのスイッチが必要なのか、驚くかもしれません。128,000台のアクセラレータで構成されるクラスターでは、コンピューティングファブリックだけで5,000台以上のスイッチが必要になる可能性があり、さらにストレージ、管理、APIアクセスのためにさらに多くのスイッチが必要になる可能性があります。
この需要に応えるため、Broadcom は、まず 2022 年に 51.2Tbps の Tomahawk 5 チップを発売し、さらに最近では 1,024 個の 100Gbps SerDes または 512 個の 200Gbps SerDes を選択できる 102.4Tbps の Tomahawk 6 (TH6) を発売するなど、非常に高基数スイッチをリリースしています。
スイッチに搭載できるポート数が多いほど基数が高くなり、エンドポイント数が同じであれば必要なポート数は少なくなります。当社の計算によると、前述の例と同じ数のGPUを200Gbpsで接続するには、TH6スイッチがわずか750台で済みます。
Tomahawk 6 の高基数化により、2 層アーキテクチャでわずか 750 個のスイッチで最大 128,000 個の GPU をサポートできます。 - クリックして拡大
もちろん、イーサネットなので、顧客は特定のベンダーに縛られることはありません。今年初めのGTCでは、Nvidiaが独自の102.4Tbpsイーサネットスイッチを発表しました。MarvellとCiscoも近いうちに同等のスイッチを発売するでしょう。
スケールアップイーサネット
イーサネットは、現代のデータセンターのバックボーンを形成するスケールアウト・ファブリックと関連付けられることが最も一般的です。しかし、BroadcomはTomahawk 6のようなスイッチを、ラックスケール・アーキテクチャへの近道としても位置付けています。
ご存じない方のために説明すると、これらのスケールアップ ファブリックは、8 個から 72 個の GPU に高速なチップ間接続を提供し、2027 年までに 576 個までの設計が予定されています。最大 8 個のアクセラレータまでの小規模メッシュは、単純なチップ間メッシュを使用して実現できますが、Nvidia の NVL72 や AMD の Helios リファレンス デザインのような大規模な構成では、スイッチが必要になります。
Nvidiaは既にNVLinkスイッチをリリースしており、業界の多くはオープンな代替技術であるUltra Accelerator Link(UALink)に賛同していますが、この仕様はまだ初期段階にあります。最初のリリースは4月にリリースされたばかりで、専用のUALinkスイッチングハードウェアはまだ実現されていません。
Broadcom 社は、この技術の初期の提唱者であったが、過去数か月で同社の名前は UALink コンソーシアムの Web サイトから消え、既存のスイッチで動作するように設計された独自のスケールアップ イーサネット (SUE) スタックを宣伝し始めた。
Broadcomがイーサネットを使用してラックスケールネットワークをどのようにサポートする予定かを簡単に説明します - クリックして拡大
こうした規模のネットワークでは、UALink のような簡素化された目的専用プロトコルを使用することでメリットがありますが、イーサネットは目的を達成できるだけでなく、現在でも利用可能であるというメリットもあります。
実際、IntelはすでにGaudiシステムのスケールアップとスケールアウトの両方のネットワークにイーサネットを使用しています。一方、AMDは来年から、第一世代のラックスケールシステム向けにUALinkをイーサネット経由でトンネリングする予定です。
より大規模で効率的なネットワークへの道を照らす
Broadcom は、従来のイーサネット スイッチングに加えて、2021 年の Humboldt の導入以来、コパッケージ オプティクス (CPO) にも投資してきました。
簡単に言うと、CPO は、通常プラグ可能なトランシーバーに搭載されているレーザー、デジタル信号プロセッサ、リタイマーをスイッチ ASIC と同じパッケージに移動します。
Broadcomの最新世代CPOスイッチは、ASICに直接接続する光レーンあたり最大200Gbpsを提供します。プラグ可能な光ファイバーは必要ありません。 - クリックして拡大
ネットワークベンダーはしばらくの間、CPO方式の採用に抵抗してきましたが、この技術には多くのメリットがあります。特に、プラグ接続の数が少ないほど、消費電力が大幅に削減されます。
Broadcom によれば、同社の CPO 技術はプラグ型よりも 3.5 倍以上効率的です。
半導体ベンダーの同社はComputexで第3世代のCPO技術を予告していましたが、その後、この技術が同社のTomahawk 6スイッチASICと組み合わせられ、スイッチ前面に最大512個の200Gbps光ファイバーポートを提供することが明らかになりました。同社は2028年までに、400Gbpsレーンに対応するCPOを実現すると見込んでいます。
CPOを採用しているのはBroadcomだけではありません。今春のGTCでは、NVIDIAがSpectrum EthernetスイッチとQuantum InfiniBandスイッチのフォトニックバージョンを披露しました。
しかし、Nvidia はスケールアウト ネットワークにフォトニクスを採用している一方で、NVLink スケールアップ ネットワークには今のところ銅線を使い続けている。
銅線は消費電力が低いですが、伝送距離には限界があります。現代のスケールアップ型相互接続の速度では、これらのケーブルはせいぜい数メートルしか伝送できず、多くの場合、追加の再伝送が必要となるため、遅延と消費電力が増加します。
しかし、スケールアップネットワークを1つのラックから複数のラックに拡張したい場合はどうすればよいでしょうか?そのためには、光ケーブルが必要になります。そのため、Broadcomはアクセラレータ自体に光ケーブルを取り付ける方法も検討しています。
光学的に相互接続されたシステムの実現可能性をテストするために、Broadcom は GPU をエミュレートするように設計されたテスト チップに光学部品を同梱しました。 - クリックして拡大
昨夏のHot Chipsで、このテクノロジー界の巨人は6.4Tb/sの光イーサネットチップレットをデモしました。これはGPUと同時パッケージ化が可能で、アクセラレータ1台あたり1.6TB/sの双方向帯域幅を実現します。
当時、Broadcomはこのレベルの接続性で512基のGPUをサポートでき、これらを64基の51.2Tbpsスイッチで構成された単一のスケールアップシステムとして動作させることができると見積もっていました。Tomahawk 6では、この数値を半分に削減するか、アクセラレータにもう1つのCPOチップレットを追加して帯域幅を2倍の3.2TB/sに増強することが可能です。
- ネットワークはまさにコンピュータになろうとしている
- スマートNIC革命は失敗に終わったが、AIがそれを変えるかもしれない
- ラックスケールネットワークは、大規模なAIトレーニングと推論ワークロードの新たなトレンドです。
- メガビット以前: ビンテージデータセンターネットワークの旅
論理以外のすべて
チップレットの話題に関連して、Broadcom の IP スタックはチップ間通信とパッケージングにも拡張されています。
ムーアの法則が徐々に減速するにつれ、レチクルサイズのダイに詰め込める演算能力には限界が来ています。そのため、業界の多くはマルチダイアーキテクチャへと移行しています。例えば、NVIDIAのBlackwellアクセラレータは、実際には2つのGPUダイを高速チップ間インターコネクトで融合させたものです。
AMD の MI300 シリーズではこれをさらに極限まで推し進め、TSMC のチップオンウェーハオンサブストレート (CoWoS) 3D パッケージング技術を使用して、4 つの I/O ダイの上に 8 つの GPU ダイを積み重ねたシリコン サンドイッチを形成しました。
マルチダイ・アーキテクチャでは、より小さなダイを使用できるため、歩留まりが向上します。また、コンピューティングダイとI/Oダイを異なるプロセスノードで製造することで、コストと効率を最適化することも可能になります。例えば、AMDはGPUダイにTSMCの5nmプロセス技術を使用し、I/Oダイには同社が以前から使用している6nmノードを採用しました。
このようなチップレットアーキテクチャの設計は容易ではありません。そこでBroadcomは、3.5D eXtreme Dimension System in Package(3.5D XDSiP)技術を用いて、マルチダイプロセッサ構築の青写真とも言えるものを開発しました。
左側は2.5Dパッケージングで構築された典型的なアクセラレータ、右側はBroadcomのXDSiP 3Dパッケージング技術です - クリックして拡大
Broadcom の初期設計は AMD の MI300X によく似ているが、この技術は誰でもライセンスを取得できる。
類似点があるにもかかわらず、Broadcomのコンピューティングダイとシステムロジックの残りの部分とのインターフェースに対するアプローチは少し異なります。MI300Xに見られるような従来の3.5Dパッケージング技術では、フェイスツーバックのインターフェースが採用されており、データと電力を両者間でやり取りするシリコン貫通ビア(TSV)の配線に手間がかかると聞いています。
ブロードコムは、シリコンを面と面を合わせて積み重ねることで、ダイ間の相互接続速度の向上と信号配線の短縮を実現できると述べている - クリックして拡大
BroadcomのXDSiP設計は、ハイブリッド銅ボンディング(HCB)と呼ばれる技術を用いて、対面通信向けに最適化されています。これにより、チップレット間の電気インターフェースの高密度化が実現します。これにより、ダイ間の相互接続速度が大幅に向上し、信号配線も短縮されるとのことです。
これらの設計に基づく最初の部品は、2026年に生産開始される予定です。しかし、チップ設計者は、自社で開発したIPとライセンス供与を受けたIPを公開する習慣がないため、どのAIチップやシステムがBroadcomの技術を使用しているかは永遠にわからないかもしれません。®