シスコ、自社製51.2TビットスイッチASICでブロードコム、NVIDIAに挑む

Table of Contents

シスコ、自社製51.2TビットスイッチASICでブロードコム、NVIDIAに挑む

Cisco 社は AI ネットワーキングの波に乗って、少なくとも 32,000 個の GPU を統合できると主張する 51.2Tbit/秒のスイッチで Broadcom 社や Nvidia 社に加わった。

G200というコードネームで呼ばれるこのスイッチASICは、シスコのSilicon Oneポートフォリオの一環として開発され、帯域幅を大量に消費するWebスケールのネットワークや、より大規模なAI/MLコンピューティングクラスターを対象としている。

このチップ自体は、シスコの旧型 G100 ASIC の 2 倍の帯域幅を提供し、112G ビット/秒のシリアライザ/デシリアライザ (SerDes) の数が 256 から 512 に倍増しています。これにより、必要なアプリケーションとポート密度に応じて、最大 64x 800G ビット/秒、128x 400G ビット/秒、または 256x 200G ビット/秒のポートが可能になります。

現実的に考えると、Cisco の G200 を搭載したスイッチの大部分は 400Gbit/秒で上限に達すると予想されます。これは現在 PCIe 5.0 NIC でサポートされている最大帯域幅であり、そもそもアグリゲーション以外で 800Gbit/秒のイーサネットを利用できるアプリケーションはそれほど多くありません。

この時点で少し既視感を覚えるなら、それはBroadcomとNvidiaがそれぞれTomahawk 5とSpectrum-4シリーズで同様のASICとスイッチをリリースしているからかもしれません。どちらのスイッチも51.2Tbit/秒の帯域幅を誇り、大規模GPUコンピューティングクラスター向けのInfiniBandネットワークの代替として位置付けられています。

実際、Cisco G200は、競合ネットワークベンダーが約束するのと同じAI/ML中心の機能と能力の多くを約束しています。3社とも、高度な輻輳管理、パケットスプレー技術、リンクフェイルオーバーといった機能を約束しています。

これらの機能は重要です。GPUは400Gbit/秒のリンクを完全に飽和させることができるだけでなく、ワークロードがこれらのクラスタに分散される方法により、レイテンシと輻輳の影響を特に受けやすいためです。トラフィックが滞留すると、GPUがアイドル状態になり、ジョブの完了時間が長くなる可能性があります。

これら 3 つのベンダーはいずれも、これらの機能を RDMA over Converged Ethernet (RoCE) などと組み合わせることで、標準イーサネットを使用して極めて低損失のネットワークを実現し、ひいては完了時間を短縮できると主張しています。

「市場には明らかに51.2テラビット/秒のスイッチが複数存在します。しかし、私の見解としては、すべての51.2テラビット/秒のスイッチが同等に作られているわけではないということです。多くの企業が謳い文句を掲げていますが、実際にその謳い文句を実現している企業はほとんどありません」と、シスコのSilicon Oneラインのマーケティング責任者であるラケシュ・チョプラ氏はThe Register紙に語った。

BroadcomとNvidiaはCiscoに先んじて市場に参入したかもしれないが、Chopra氏はG200の重要な差別化要因の一つは512x基数構成のサポートにあると主張した。細かい点には触れないが、基数が大きいほどスイッチファブリックは小型で高密度になる。

  • AMDはアダプティブコンピューティングの研究開発に1億3500万ドルを投資し、アイルランドの幸運を祈る
  • フロリダの男(あの男ではない)が1億ドル以上の偽造ネットワーク機器を販売
  • ブロードコムは、NVIDIA Spectrum-Xの「ロスレスイーサネット」は新しいものではないと述べている
  • ママ、InifiniBandがないよ: NvidiaのDGX GH200はNVLinkで256個のスーパーチップを結合

Cisco社によると、これによりG200は、同等の256基基数スイッチと比較して、スイッチ数を40%削減し、光コネクタの数を半分に抑えることで、32,000基を超えるGPU(約4,000ノード)のクラスタをサポートできるという。我々の知る限り、これは256基基数200Gビット/秒を特徴とするBroadcomのTomahawk 5を狙ったものだが、NvidiaのSpectrum-4にも当てはまる可能性がある。

シスコは、この図に示すように、Silicon One G200 ASICによって、より高密度で効率的なネットワークを実現できると主張しています。しかし、このネットワーク大手のライバル企業は、これらのトポロジーは非現実的だと主張しています。

シスコは、この添付の図に示すように、Silicon One G200 ASICがより高密度で効率的なネットワークを可能にすると主張している。クリックすると拡大する。

チョプラ氏は、シスコがこれを実現できたのは、シリコンワンの技術が競合スイッチよりも「圧倒的に」効率が高いからだと主張した。どの程度効率が高いのかは不明だ。チョプラ氏はG200の消費電力については明らかにしなかった。

彼は、32,000基のGPUをサポートできるネットワークトポロジーの場合、G200ベースのスイッチを使用すると、競合製品と比較して約1メガワットの電力節約になると述べました。これは印象的に聞こえるかもしれませんが、この規模のクラスタは負荷時に40MW以上の電力を消費する可能性があり、しかもデータセンターの冷却を考慮すると、その効果に気付くことはないでしょう。

それでもチョプラ氏は、特に持続可能性の目標により電力使用量を相殺することが義務付けられている企業にとっては、どんな節約も価値があると主張した。

しかし、ブロードコムのコアスイッチンググループ担当SVP、ラム・ヴェラガ氏はThe Registerへの電子メールの中で、シスコが説明した例は非現実的であり、現実世界で展開されることはないと主張した。

「例えば、ファブリック内の100Gビット/秒のリンクがGPUへの400Gビット/秒のリンクに移行する様子が示されていますが、これはカットスルー方式が使えないことを意味します。代わりに、レイテンシの高いストアアンドフォワード方式を使う必要があるでしょう」とVelaga氏は記しています。

ヴェラガ氏はさらに、Tomahawk 5 は実際には 768 台のスイッチを使用した 2 層ネットワークを使用して 32,000 個の GPU クラスターをサポートできると付け加えた。これはシスコと同じ数だ。

我々はNvidiaにもコメントを求めたが、本稿公開時点では返答はなかった。

Silicon One社のASICは現在、最終製品への統合に向けて顧客の手元に届いています。しかし、Chopra氏は、最終製品がデータセンターに導入される時期については明言を避けました。®

Discover More