現代のAIシステムでは、PCIeを使ってアクセラレータを接続するだけでもすでに遅すぎます。NVIDIAとAMDは、この理由からNVLinkやInfinity Fabricといった特殊なインターコネクトを採用しています。しかし、これらのリンクが900GB/秒以上の速度を実現するには、銅線だけでは限界があります。
Broadcomの光システム部門マーケティング・オペレーション担当副社長、マニッシュ・メータ氏によると、ハイエンドのクラスタでは、銅線で伝送できる距離は3~5メートル程度で、それ以上になると信号が途切れ始めるとのことです。シリアライザ・デシリアライザ(SerDes)の速度が200Gbpsを超えると、銅線の伝送距離はさらに短くなる一方です。
答えは、ご想像の通り、銅線ケーブルを捨てて光ケーブルを使うことです。ただし、消費電力の増加は避けられません。NVIDIAは、NVL72システムに銅線ケーブルではなく光ケーブルを使用した場合、ラックあたり120キロワットの定格電力に加えて、さらに20キロワットの電力が必要になると試算しています。
個々のトランシーバーはそれほど多くの電力を消費しません(メータ氏によると、1台あたりわずか13~15ワット)が、64ポートまたは128ポートのスイッチを複数台接続する場合、その電力はすぐに膨れ上がります。「より長距離、つまり光接続へとスケールアップする必要がある場合、10倍の帯域幅が必要になりますが、このタイプのパラダイムではそれは到底実現できません」と、メータ氏は今週開催されたHot Chipsカンファレンスでの講演で説明しました。
代わりに、Broadcom は現在、光学系を GPU 自体に直接パッケージ化する実験を行っています。
共パッケージ型光モジュール(CPO)は、ブロードコムが数年にわたり研究を重ねてきた分野です。2022年に、このネットワーク大手が従来の電気インターフェースと共パッケージ型光インターフェースを50/50で組み合わせたHumboldtスイッチを発表したことを覚えている方もいるかもしれません。
数か月後の2023年初頭、ブロードコムは、帯域幅が2倍の51.2Tbit/秒の第2世代CPOスイッチのデモを行いました。このスイッチは、8つの6.4Tbit/秒光エンジンをTomahawk 5 ASICに統合し、純粋に800Gbit/秒のポートを64個備えています。さらに重要なのは、これによりブロードコムはポートあたりの消費電力を5ワットと3分の1に削減できたことです。
昨年、ブロードコムは64個の純粋な光800Gポートを備えた51.2Tbit/秒のCPOスイッチをデモしました – クリックして拡大
今週のHot Chipsで発表されたBroadcomの最新の取り組みは、これらの光学エンジンの1つをGPUに内蔵することで、各チップレットで約1.6TB/秒(双方向で6.4Tビット/秒、800GB/秒)の相互接続帯域幅を実現し、「エラーフリーのパフォーマンス」を実証するというものだとMehta氏は説明した。これは、Blackwell世代と同時に出荷予定のNvidiaの次世代NVLinkファブリックとほぼ同水準で、銅線経由で各GPUに1.8TB/秒の帯域幅を提供するという。
光学的に相互接続されたチップの実現可能性をテストするために、ブロードコムはGPUをエミュレートするように設計されたテストチップに光学部品を同梱しました – クリックして拡大
念のため言っておきますが、Broadcomの光インターコネクトを搭載したA100やMI250Xは流通していません。少なくとも私たちが知る限りでは。Broadcomの実験に使用されたGPUは、実際には実物を模倣するために設計されたテストチップに過ぎません。そのため、TSMCのCoWoS(Chip-on-Wafer-on-Substrate)パッケージング技術を用いて、2つのHBMスタックをコンピューティングダイに接合しています。ただし、チップのロジックとメモリはシリコンインターポーザー上に配置されているのに対し、Broadcomの光エンジンは実際にはサブストレート上に配置されています。
これは重要です。なぜなら、HBM を使用する基本的にすべてのハイエンド アクセラレータは、たとえ Broadcom 独自のチップレットでは必要なくても、CoWoS スタイルの高度なパッケージングに依存しているからです。
Mehta 氏によると、この種の接続は、わずか 8 つのラックで 512 個の GPU をサポートし、単一のスケールアップ システムとして機能する可能性があるとのことです。
Broadcomは、共同パッケージ化された光学系により、数百のGPUで構成される大規模なシステムを実現できると主張している – クリックして拡大
さて、Amazon、Google、Meta、そして数多くのデータセンター事業者が既に1万基以上のGPUを搭載したクラスターを展開しているのではないか、と思われるかもしれません。確かにそうですが、これらのクラスターはスケールアウト型のカテゴリーに分類されます。作業は比較的低速なEthernetまたはInfiniBandネットワークを介して、最大8基のGPUを搭載したシステムに分散されます。
メータ氏が言及しているのは、NVIDIAのNVL72のようなスケールアップシステムです。72個のGPUを1つの巨大なGPUとして動作させるのではなく、ファブリックは十分な速度と十分な距離をカバーし、数百個のGPUを1つの巨大なアクセラレータとして動作させることができます。
- TenstorrentのBlackholeチップは768個のRISC-Vコアとほぼ同数のFLOPSを誇る
- IBM、次世代ビッグアイアンで大規模AIを実現する次世代チップを発表
- Cerebrasはウェハスケールチップに推論技術を導入し、1秒あたり1,800トークン生成速度を実現したと発表
- LiquidStackは、新しいCDUが1MW以上のAIコンピューティングを冷却できると述べている。
Mehta 氏は、光学エンジンを 6.4Tbit/秒以上に押し上げることに加えて、コンピューティング パッケージ上で複数のチップレットを統合できる可能性も見出しています。
もしこれらの話に聞き覚えがあるとしたら、それはBroadcomがチップに光インターコネクトを実装した最初の企業ではないからです。今年初め、Intelは4Tbit/sの双方向帯域幅を実現する光チップレットのコパッケージ化に成功したと発表しました。また昨年、ChipzillaはAyar Labsが開発したコパッケージ化光チップレットを用いた同様のコンセプトを披露しました。
同様の機能を約束する他の多くのシリコンフォトニクスのスタートアップ企業も登場しており、その中にはLightMatterやCelestial AIなどがあり、その製品はさまざまな開発・生産段階にあります。
AMD の Instinct GPU や APU には、今のところ光学系が一体化されたものはありませんが、この春、AMD の CTO である Mark Papermaster 氏と SVP の Sam Naffzigger 氏が、そのようなチップの可能性について話し合いました。®