AI企業のCerebrasは、分散型クラスターであるCondor Galaxyスーパーコンピューターを発表した。これは、完成すると9つのサイトにまたがり、合計36エクサFLOPSのFP16パフォーマンスを実現することになる。
同社は木曜日にシステムの第1フェーズを公開した。これはAIの研究開発に関心を持つアラブ首長国連邦の多国籍コングロマリットであるG42向けに構築されたもので、プロセスの動力源としてセレブラスのCS-2アクセラレータを使用している。
Cerebrasのアクセラレータは、今日の多くのAIクラスターに見られるGPUやAIアクセラレータとは異なります。NvidiaのH100のようなPCIeカードやSXMモジュールの形態で提供されるものではありません。
同社のWSE-2は、ディナープレートほどの大きさの巨大な装置で、それぞれ85万個のコアと40GBのSRAMを搭載し、20PBpsの帯域幅を実現しています。これは、他のアクセラレータに典型的なHBM(Human Model Model)よりも桁違いに高速です。各ウェハには100Gbpsのインターフェースが12個搭載されており、システムを最大192台まで拡張できます。
コンドル銀河が合体
現在の形態では、Condor Galaxy 1 (CG-1) は 32 個のラックにまたがっており、各ラックにはチップメーカーのウェハスケール CS-2 アクセラレータが搭載されており、昨年検討した Cerebras の Andromeda システムの 2 倍の規模になっています。
現時点では、CG-1には32台のシステムが稼働しており、36,352基のAMD Epycコアが電力を供給しています。CerebrasがAMDの64コアCPUを採用し続けると仮定すると、ソケット数は568個になります。これは32ラックにきちんと分割できないため、Cerebrasに詳細を問い合わせましたが、クラスタ内の一部のシステムは補助的な役割を果たしていることは間違いありません。
このマシンは合計41TBのメモリ(ただし、WSE-2ウェハのSRAMはそのうち1.28TBに過ぎない)、194Tbpsの内部帯域幅、そして2エクサフロップスのピーク性能を備えている。しかし、興奮しすぎる前に言っておくと、これはアルゴンヌ国立研究所が新たに完成させたAuroraスーパーコンピュータに期待されるエクサフロップスとは異なる。
HPCシステムは倍精度(FP64)で測定され、多くの場合LINPACKベンチマークが使用されます。一方、AIシステムはこのレベルの精度の恩恵を受けず、FP32、FP16、FP8、そして場合によってはInt8の計算で十分です。この場合、Cerebrasのシステムはスパース性を考慮したFP16で最も優れた数値を達成しています。
FP16の2エクサフロップスという性能はそれ自体が印象的ですが、これは全体の半分に過ぎません。完成すると、約1億ドル規模のシステムは、CS-2アクセラレータを搭載したラック64台で構成されることになります。
システムは線形に拡張され、クラスタ全体では4エクサフロップスのスパースFP16性能(Andromedaの4倍)を実現できると聞いています。Cerebrasは、今後3ヶ月以内に残りの32ラックの設置を完了する予定です。
セレブラスの完成したコンドルギャラクシー1スーパーコンピュータは64のラックにまたがり、各ラックにはウェーハスケールのアクセラレータが搭載される。
分散型AIスーパーコンピュータ
もちろん、4エクサフロップスのAI性能には、相当な電力と熱管理が必要になります。Andromedaからの線形スケーリングを想定すると、システムは2メガワット以上の電力を消費できると推定されます。
このため、Cerebrasはシステムをコロボアのサンタクララ施設に設置しています。このコロケーションプロバイダーは高性能コンピューティングとAI/MLアプリケーションを専門としており、最近、最大250キロワットの冷却能力を備えたラックを発表しました。
「これは、来年彼らと共同で構築する米国拠点の大規模スーパーコンピューター3台のうちの最初のものだ」とセレブラスのCEOアンドリュー・フェルドマン氏はThe Registerに語った。
CG-1をテンプレートとして、ノースカロライナ州アッシュビル(CG-2)とテキサス州オースティン(CG-3)にさらに2つの米国拠点が建設され、2024年上半期に完成予定です。これらのシステムはネットワーク化され、サイト間でのモデルの分散が可能になります。フェルドマン氏は、これは大規模でレイテンシに耐性のある特定のワークロードでは可能であると主張しています。
「レイテンシは、すべての問題ではなく、一部の問題において問題となります。高性能コンピューティングの世界では、これは大きな問題です」と彼は述べた。「多くのAIワークロードでは、レイテンシが問題にならないと思います。分散しないワークロードもあります。私たちは、これを慎重に、そして慎重に行うつもりです。」
- 米国政府は、触媒の難問を解くためにAuroraスーパーコンピュータを導入する
- HSBCは通信ネットワークの遮断に量子技術を活用
- そうだ、リシ、英国を再び偉大にするのはAIだ
- SambaNovaは米国のスーパーコンピュータ研究所の核シミュレーションにAIの魔法を注入する
チップメーカーはまた、このシステムは米国法に基づいて運用され、勧告国には提供されないことを慎重に指摘している。これは、ロシア、中国、北朝鮮などを含む特定の国へのAIチップの輸出を規制する米国の貿易政策に言及しているものと思われる。
しかし、フェルドマン氏は、システムを米国で構築するという決定は、迅速な対応を求めたからだと述べている。「最初の3拠点を米国に設置したのは、市場投入までの時間を短縮したいという思いからだったと思います」と彼は述べた。「G42が中東を越えて事業を拡大したいという思いからだったと思います」
最終段階では、セレブラスはCG-1をテンプレートとして、さらに6つのサイト(所在地はまだ公表されていない)を建設します。Condor Galaxyシステム全体は、576基のCS-2アクセラレータを搭載し、36エクサフロップスのスパースFP16性能を発揮するとされていますが、9つのサイトからなるコンステレーション全体にワークロードが集中することは、仮にあってもほとんどないと予想しています。セレブラスは、2024年末までに全9サイトの設置を完了することを目指しています。
可用性
セレブラスはシステムの運用・管理を担当しますが、システムの所有権はG42が持ち、G42は社内業務に使用する予定です。具体的には、セレブラスはG42 Cloud、国際AI研究所(IIAI)、G42 Healthを含む、多国籍企業の3つの部門と連携していると述べています。
「彼らが私たちと提携したのは、私たちが大型スーパーコンピュータを構築・管理できること、大規模な生成AIモデルを実装できること、そして非常に大規模なデータセットのクリーニングと操作において豊富な経験を持っているからです」とフェルドマン氏は述べた。「彼らはポートフォリオ企業の間でコンピューティングに対する膨大な需要を抱えています。しかし、非常に大規模なモデルやコンピューティングでは、ビンパッキングの問題が発生します。他のワークロードを組み込む機会は常に存在します。」
これは、G42が消費しなかった余剰リソースが、G42とセレブラスの両方の顧客に提供されることを意味します。フェルドマン氏によると、セレブラスのクラウドは既に満杯であるため、これは非常に重要な意味を持ちます。
フェルドマン氏と彼の会社にとって、G42との提携は、セレブラスのアーキテクチャをより多くの人々に知ってもらう機会となり、AIアクセラレーター市場で圧倒的なシェアを持つNVIDIAとの競争をより積極的に展開する機会となる。「クラウド上で実際にテストし、実際に見せ、デモンストレーションしなければ、誰もあなたの製品を購入しません」とフェルドマン氏は付け加えた。®