Intel が Omni-Path 相互接続技術を Cornelis Networks にスピンオフさせてから 5 年が経ち、同社の 400Gbps CN5000 スイッチおよび NIC 製品ラインは、ついに長年のライバルである Nvidia の InfiniBand と戦う準備が整った。
今回、CornelisはスーパーコンピュータやHPCクラスターだけに狙いを定めているわけではない。価格性能比でNvidiaを下回ることで、AIブームにも乗ろうとしているのだ。
Omni-Pathはもう終わったと思って記憶を消してしまった方のために、簡単におさらいしておきましょう。Omni-Pathは、2015年にIntelによって最初に開発されたロスレス相互接続技術で、多くの点でNvidiaのInfiniBandネットワークに似ており、高性能コンピューティングアプリケーションを対象としています。
最初の Omni-Path スイッチは、48 個の 100Gbps ポートで 4.8Tbps の帯域幅を提供し、ロスアラモス国立研究所の Trinity システムや米国エネルギー省の Cori マシンなど、数多くのスーパーコンピューティング プラットフォームに導入されました。
しかし、2019年までにインテルはこのプロジェクトを断念し、2020年9月にコーネリス・ネットワークスとして部門を分社化しました。
Omni-Pathはこれまでずっと存在していましたが、100Gbpsで停滞していました。Cornelis Networksは今、400Gbps対応のOmni-Pathスイッチ、NIC、ケーブルをフル装備し、冬眠から覚めようとしています。同社によれば、これらの製品は50万以上のエンドポイントからなるクラスターをほぼ線形のパフォーマンス拡張でサポートできるとのことです。
CN5000ラインナップを掘り下げる
だらだら続けるよりも、私たち全員が本当に関心を持っていること、つまり速度と送りについて詳しく説明しましょう。
Cornelis Network のシングルポート 400Gbps Omni-Path superNIC をご覧ください - クリックして拡大
まず最初に紹介するのは、CornelisのCN5000スーパーNICです。InfiniBandと同様に、Cornelisのスイッチでは現時点ではNICを一切使用せず、Omni-pathアーキテクチャのメリットを享受することはできません。
このカードには、1つまたは2つの400Gbpsポートが搭載されます。これはおそらく、PCIe 5.0インターフェースが実際にはこれらの速度で複数のポートをサポートできないため、帯域幅の追加ではなく冗長性確保を目的としていると思われます。また、消費電力は空冷または液冷のどちらを選択するかによって15~19ワットになります。(CN5000シリーズ全体が空冷と液冷の両方をサポートします。)
コーネリスのCN5000スイッチは、48ポートの400Gbps接続と19.2Tbpsの総帯域幅を備えています - クリックして拡大
NICは、2台のCN5000スイッチのいずれかとペアリングするように設計されています。1台目は48ポートのアプライアンスで、ラック内の1ユニットを占有し、19.2Tbps(ポートあたり400Gbps)のスイッチング容量を提供します。
CN5000は主にエンタープライズAIおよびHPCの導入を対象としています。より大規模な導入には、Cornelisの576ポートCN5000ディレクタークラススイッチが最大230.4Tbpsの集約帯域幅を提供します。
Director スイッチは、重量が 600 ポンドを超え、高さは液体冷却または空冷のどちらを選択するかに応じて 17 〜 19 ラック ユニットで、プラグ可能な光学部品をフル装備した場合の定格電力は約 22 キロワットです。
CornelisのCN5000ディレクタースイッチは、18個のCN5000スイッチを完全に統合した576ポートアプライアンスを備えたシャーシ設計です。 - クリックして拡大
実際、これをスイッチと呼ぶのは少し誤解を招くかもしれません。実際には、18個のCR5000を12個のリーフと6個のスパインからなる2層トポロジで配置したスイッチシャーシです。
これにより、ケーブル配線が簡素化され、大規模な展開をサポートするために必要な光トランシーバーの数を削減できるという利点があります。
Cornelis は、スイッチや NIC に加えて、アクティブな光ケーブルや銅線ケーブルも多数提供しています。
OmniPathとInfiniBand
Nvidiaの400Gbps Quantum-2 InfiniBandおよびConnectX-7 NICと比較して、Cornelisは最大2倍のメッセージング速度、35%のレイテンシ低減、30%のシミュレーション時間短縮を約束しています。ベンダーが提供するベンチマークと同様に、これらの主張は鵜呑みにしないでください。
さらに重要なのは、Intel の Xeon 部門を率いていたころから記憶にある Cornelis Networks の CEO である Lisa Spelman 氏が、この製品の価格が Nvidia より大幅に安くなると主張していることです。
Cornelis は InfiniBand よりもパフォーマンスが優れていると主張していますが、CN5000 スイッチは帯域幅の点で若干劣っており、400Gbps ポートの数は 64 に対して 48 で、約 4 分の 3 となっています。
これは、NVIDIAが約3年前に発売したQuantum-2スイッチとの比較です。NVIDIAは、今年後半にQuantum-X800およびQuantum-Xフォトニクス・プラットフォームを発売し、ポート数を144に、速度を800Gbpsに増強する予定です。
しかし、ポート帯域幅の拡大は、特にNvidiaのGPUを使用していない場合は、見た目ほど大きな問題ではないかもしれません。なぜなら、PCIe 5.0 NICで実現できる最高速度は400Gbpsだからです。これを回避する唯一の方法は、PCIe 6.0スイッチをNICに接続し、そこにGPUを接続することです。これはまさに、NvidiaがConnectX-8 NICで実現した方法です。
そうは言っても、Cornelis 氏は、Intel と AMD による最初の PCIe 6.0 互換 CPU の発売に合わせて、来年には 800Gbps への飛躍を期待しています。
ラディックスの現実
一方、ネットワークの規模によっては、Cornelis のキットではポート数が問題になる可能性があります。
Cornelis の CN5000 はわずか 48 ポートなので、特に高基数スイッチではありません。つまり、大規模な HPC または AI トレーニング クラスターをサポートするには、多数のポートが必要になります。
CN5000スイッチは、小規模な導入が一般的であるエンタープライズ向けに設計されていますが、大規模な環境にも対応可能です。同社によれば、この機器は数十万のエンドポイントをサポートできるとのことです。
しかし、128,000 個の GPU を 400Gbps でネットワーク化するには、3 レベルの非ブロッキング トポロジで約 13,334 個の CN5000 が必要になると推定されます。
このトポロジは、ファット ツリーとも呼ばれ、帯域幅、レイテンシ、輻輳管理のバランスが優れているため、AI ネットワークでよく採用されています。
しかし、Nvidia の Quantum-2 InfiniBand スイッチを使用して同じことを行う場合、必要なのは 10,000 個だけです。
さらに、ネットワークの規模を最優先する場合、イーサネットは明らかに優位性があります。スペルマン氏はOmni-Pathがイーサネットと競合しようとしているわけではないと主張していますが、イーサネットは確実にOmni-Pathと競合するために進化しています。
BroadcomのTomahawk 5やNvidiaのSpectrum-4のような51.2Tbpsイーサネットスイッチであれば、128,000個のGPUを400Gbpsでネットワーク化するのに必要なアプライアンスはわずか5,000台です。先週紹介したBroadcomの新しいTomahawk 6なら、その半分の数で同じことを実現できます。(ただし、NvidiaのSpectrum-X800と同様に、Broadcomの最新ASICを搭載したスイッチが手に入るまでにはもう少し時間がかかり、たとえ手に入ったとしても、Cornelisのエンタープライズ向けキットよりも大幅に高価になる可能性があります。)
このような巨大なクラスターをネットワーク化することも決して簡単ではありません。Cornelis が最初に CN5000 Director の構築を選択したのも、間違いなくこのためです。
576 ポートの場合、128,000 GPU クラスターに必要な Director スイッチは 733 個のみとなり、実行回数が約 3 分の 1 削減されます。
ファットツリートポロジーは有用な比較対象となりますが、これは今日のAIおよびHPCクラスターで採用されている多くのトポロジーの1つに過ぎないことに留意する必要があります。どのトポロジーが価格性能比において最適であるかは、アプリケーションに大きく依存するとスペルマン氏は指摘します。
「ネットワークの有効性は、クラスタ全体のパフォーマンス、そして最終的にはアプリケーションのパフォーマンスに与える影響に基づいて測定する必要があります」と彼女は述べた。マイクロベンチマークや必要なスイッチの数に基づいて決定を下すと、理論上は良さそうに見えても、アプリケーションのパフォーマンスが十分に最適化されていないネットワークになってしまう可能性があると彼女は主張する。
「ネットワークの目的はアプリケーションの高速化であり、それが私たちが目指していることです。ネットワークのためのネットワークではありません」と彼女は述べた。
より小規模でフラットなネットワークでは、ネットワークホップ数が少なくなり、レイテンシが低減されます。これはAIトレーニングのワークロードにとって大きなメリットとなります。しかし、Cornelis Networksの共同創業者であるフィル・マーフィー氏が指摘するように、同社のスイッチはイーサネットやInfiniBandよりもはるかに低いレイテンシを提供するため、実際にはホップ数を増やしてもレイテンシを犠牲にすることなく対応可能です。
もし Cornelis 社が実際に InfiniBand を大幅に下回ることに成功し、CN5000 が同社のパフォーマンスの主張を満たすことができれば、スイッチの基数が低いことはそれほど大きな問題ではなくなるかもしれません。
より大きく太いネットワークは必ずしも悪いことではないかもしれない
ネットワークのせいで 30 ~ 50 パーセント以上の使用率を達成できない場合は、128,000 個の GPU クラスターを導入してもあまり意味がありません。
スペルマン氏は、これがイーサネット・スケールアウト・ファブリックが直面している課題だと述べた。「最高水準の、最も高度に調整された環境でさえ、利用率は50~55%程度にとどまっています。つまり、改善の余地は非常に大きいのです。」
Cornelis は、データ量の多い AI トレーニング ワークロードの場合、Omni-Path は RDMA over Converged Ethernet (RoCE) よりも集合的な通信時間を 6 倍短縮できると主張しています。
イーサネット仕様が最初に策定された当時、高性能コンピューティングやAIトレーニング用クラスターは、それほど優先度が高くありませんでした。イーサネットファブリックにおける課題の一つはパケットロスです。パケットが宛先に到達できない場合、再ブロードキャストが必要になります。その結果、アクセラレータはネットワークの他の部分の追いつきを待つため、テールレイテンシが増大します。
AMD は以前、平均してトレーニング時間の 30 パーセントがネットワークが追いつくのを待つことで無駄になっていると推定していました。
しかし、状況は変わり始めています。ここ数年で、BroadcomのTomahawk 5および6、NvidiaのSpectrum-X製品ライン、AMDのPensando NICなどのイーサネットプラットフォームは進化を遂げ、複雑なパケットルーティング、輻輳管理、パケットスプレー技術を活用することで、InfiniBand並みのパフォーマンス、ロス、レイテンシを実現していると主張しています。
「ブロードコムのシリコンで構築されたイーサネットネットワークにおけるGPU利用率は、InfiniBandやOmniPathで構築されたネットワークと同等、あるいはそれ以上です」と、ブロードコムのTomahawkラインの製品ラインマネージャー、ピート・デル・ベッキオ氏はEl Reg誌に語った。「今年導入される最大規模のGPUクラスターはすべて、大手ハイパースケーラーによってイーサネット上で稼働しています。」
「代替手段に比べて半分か3分の1しか利用できないネットワークファブリックを故意に導入するというのは、まったく信じられない」と同氏は付け加えた。
- ブロードコムは102.4T光子スイッチでNVIDIAのAIネットワーク帝国にトマホークを向ける
- Nvidia、Doudnaスーパーコンピューターで2022年以来初のDOE受賞
- ハウス・オブ・ゼンがエノセミ買収で共同パッケージ光学機器の競争に参入
- Nvidia GPUロードマップがそれを裏付ける:ムーアの法則は既に消滅した
ウルトライーサネットへの道
現状では、Cornelis の Omni-Path スイッチと NIC はイーサネットを置き換えるようには設計されていませんが、今後もそうとは限りません。
来年から、Cornelisの800Gbps対応CN6000シリーズ製品にイーサネットとの相互互換性が導入されます。つまり、同社のスーパーNICを例えばBroadcomスイッチと、あるいは同社のスイッチをPensando NICなどと組み合わせて使用できるようになるということです。
その時点では、CornelisのCN6000はNvidiaのSpectrum-XスイッチやBlueFieldスーパーNICに似たものになると思われます。これらは他のイーサネットキットでも動作しますが、組み合わせて使用すると最高のパフォーマンスを発揮します。
「イーサネットベースから始めて、これらすべての機能や性能を追加しようとするのではなく、Omni-Pathアーキテクチャをベースにして、そこにイーサネットを追加していくのです」とスペルマン氏は述べた。「私たちが実現し、構築したのは、イーサネットからOmni-Pathの機能の一部にアクセスできるようにするアダプテーションレイヤーです。」
このアプローチは、Cornelis社のUltra Ethernetへの移行をも強調しています。2023年に設立されたUltra Ethernet Consortium(UEC)は、AMD、HPE、Arista、Broadcomなどの業界リーダーによって設立され、HPCおよびAIアプリケーションでの使用に向けてEthernetプロトコルを近代化することを目指しています。Cornelis社は、Ultra Ethernetのほぼ初期から主要な支持者です。
2年後、仕様自体はまだ初期段階にあるものの、最初の Ultra Ethernet 対応チップが市場に登場し始めています。
「Ultra Ethernetとの統合に向けた取り組みは今後も継続していきますが、まずはUECが示した機能要件を既に満たしているベースラインアーキテクチャから着手しました」とスペルマン氏は説明した。「コンソーシアムの承認を待つためにロードマップを遅らせるつもりはありません。」
つまり、Omni-Path はすでに動作しているので、準備が整い次第、Ultra Ethernet のサポートが追加されることになります。
Spelman は、Cornelis が 1.6Tbps 対応の CN7000 シリーズ スイッチと NIC を市場に投入する 2027 年にそれが実現すると予想しています。®