ネットワーク企業のコヒレント社は月曜日の光ファイバー通信カンファレンスで、高密度AIクラスターをサポートするように設計された光回線スイッチを発表した。
このスイッチは、AIクラスターで一般的に見られるものとは異なり、トランシーバーを用いて光子を電子に変換したり、また光子を電子に変換したりするのではなく、実際のスイッチングが完全に光学的に処理されます。レーザー光は単純に一方のポートに入り、別のポートから出ていくだけです。もちろん、若干の減衰はありますが。
来年量産出荷が予定されているこのアプライアンスは、300個の入力ポートと300個の出力ポートを備え、コヒレント社のデータセンター光波クロスコネクト技術をベースとしています。私たちの理解では、この技術は液晶セルを操作して光の波長を制御することで機能します。
OFCで展示されたコヒレント社の最新光回線スイッチは、300個の入力ポートと300個の出力ポートを誇ります。クリックして拡大
Dell'Oro Groupのアナリスト、サメ・ブジェルベネ氏はThe Registerに対し、光回線スイッチにはいくつかの利点があると語った。高帯域幅と低遅延ネットワークに加え、このタイプのスイッチは、必要な電気スイッチと光トランシーバーが大幅に少ないため、運用コストが低くなる傾向がある。
さらに、コヒレント社は、この種の光スイッチングは信頼性が高く、平均故障時間が非常に短い非常に大規模なクラスターで大きな利益が得られる傾向があると指摘しています。
これが、GoogleがTPUv4ポッド向けに独自の光回線スイッチを開発した理由の一つです。昨年のHot Chipsで講演したGoogle TPUグループのテクニカルリード、アンディ・スウィング氏は、OCSを使用することで非常に大量のアクセラレータをスイッチ接続できるようになったと説明しました[動画]。
これらのポッドは64個のラックで構成され、各ラックには64個のTensor Processing Unit(TPU)が搭載されています。各ラックはGoogleが独自に開発したOCSスイッチに光接続され、オールツーオールのメッシュを構成しています。
Swing氏によると、このアプローチにはクラスターサイズを動的に再構成できるなど、いくつかの利点があるという。また、すべてのアクセラレータが相互に接続されているため信頼性が向上するという利点もある。これは、モデルのパラメータ数やデータセットのサイズによってはトレーニングのワークロードが数か月に及ぶ可能性があるため、非常に望ましい特性だ。
- 1ラック。120kWのコンピューティング能力。NVIDIAのDGX GB200 NVL72のモンスターを詳しく見てみよう
- AIができることのもう一つは、エッジインフラへの支出の急増を刺激することだ。
- シスコとNVIDIA、AIクラスターへのイーサネット導入に向けて提携を拡大
- AIはInfiniBandに輝きをもたらすのか?それとも、イーサネットが優位を維持するのか?
Google の TPUv4 ポッドの場合、ノードの 1 つに障害が発生した場合、スイッチを再構成して問題を回避できます。
Swing氏はまた、このアプローチではモデルに応じて様々なネットワークトポロジーを利用できると指摘した。例えば、Googleのテストでは、アクセラレータがねじれたループ状にメッシュ化されたツイストトーラストポロジーを使用することで、ネットワーク帯域幅が大幅に向上した。
しかし、Coherent 社の新しい OCS アプライアンスにより、他社でも Google と同様の光スイッチ クラスターを構築できるようになるかもしれないが、Dell Oro 社の Boujelbene 氏は、OCS はデータセンターではまだ比較的新しいテクノロジーであると指摘した。
「これまでのところ、長年の開発を経て、Googleだけがデータセンターネットワークにこれを大規模に導入することに成功しました」と彼女は述べた。「さらに、OCSスイッチは、クラウドサービスプロバイダによっては、光ファイバーの設置基盤の変更が必要になる可能性があります。」®