セレブラスは水曜日に、ディナープレートほどの大きさの最新のAIチップを発表した。同社によれば、このチップはワット当たりのパフォーマンスが前世代機の2倍であり、クアルコムとの提携により機械学習の推論を加速することを目指しているという。
WSE-3と呼ばれるこのチップは、Cerebrasの第3世代ウエハースケールプロセッサであり、その大きさはなんと46,225mm 2 (自由度単位で約71.6平方インチ)です。4兆個のトランジスタ部分はTSMCの5nmプロセスで製造され、90万個のコアと44GBのSRAMを搭載し、125 AIペタFLOPSのパフォーマンスを実現します。この場合、これは非常にスパースなFP16を指しますが、これについてはすぐに詳しく説明します。
セレブラスは、CS-3 システムが前世代機の 2 倍の速度であると主張している (クリックして拡大)
セレブラス社の新型CS-3プラットフォームは、WSE-3を1基搭載した構成で、消費電力は従来のCS-2プラットフォームと同じ23kWながら、2倍の性能を誇るとしている。「これはまさにムーアの法則の実現と言えるでしょう」と、CEOのアンドリュー・フェルドマン氏は火曜日の記者会見で誇らしげに語った。「この業界では、このような成果は長い間見られませんでした。」
NvidiaのH100と比較すると、WSE-3は約57倍の大きさで、スパースFP16パフォーマンスは約62倍です。しかし、CS-3のサイズと消費電力を考慮すると、合計16個のH100を搭載した8U DGXシステム2台[PDF]と比較する方が正確かもしれません。この比較では、CS-3は依然として約4倍高速ですが、これはスパースFP16パフォーマンスのみを考慮した場合です。
NvidiaのチップがFP8をサポートしていることを考慮すると、2つのDGX H100システムに対するリードはさらに縮小し、2倍になります。ただし、これは完全に同一条件での比較ではありません。
Cerebrasの大きな強みの一つはメモリ帯域幅です。44GBのオンボードSRAM(はい、お読みの通りです)のおかげで、Cerebrasの最新アクセラレータは21PBpsのメモリ帯域幅を誇ります。これは、H100のHBM3の最大3.9TBpsを大きく上回ります。
セレブラスのシステムがあらゆるシナリオで高速であるという意味ではありません。同社のパフォーマンスに関する主張は、スパース性に大きく依存しています。
Nvidia はスパース性を利用して浮動小数点演算を 2 倍に向上させることができますが、Cerebras は約 8 倍の改善を達成したと主張しています。
つまり、Cerebras の新しい CS-3 システムは、密度の高い FP16 ワークロードでは、ほぼ同じ量のエネルギーとスペースを消費する 2 台の DGX H100 サーバー (約 15 ペタ FLOPS と 15.8 ペタ FLOPS、16 台の H100 で 989 テラ FLOPS) よりも少し遅くなるはずです。CS-3 の密度の高い浮動小数点演算パフォーマンスについて Cerebras に問い合わせており、回答が得られ次第お知らせします。
スピードアップを考慮すると、スパース性を活用できない場合に Cerebras のインフラストラクチャを選択する人がいるとは考えにくいですが、たとえできないとしても、かなり近いと言えます。
セレブラスはすでに、AIスーパークラスター「コンドルギャラクシー」の第3期に新システムを実装する作業を進めています。昨年発表されたコンドルギャラクシーはG42との共同開発で、最終的には世界9拠点に展開される予定です。
コロヴォアのサンタクララデータセンターに設置されたセレブラスのコンドルギャラクシー1システム(クリックして拡大)
最初の 2 つのシステム (CG-1 と CG-2) は昨年導入され、それぞれ 64 台の Cerebras CS-2 マシンを搭載し、1 台あたり 4 エクサフロップスの AI 処理能力を備えていました。
セレブラスは水曜日、CG-3がテキサス州ダラスに建設され、最新のCS-3プラットフォームを導入することで、サイトのパフォーマンスを8 AIエクサフロップスに向上させると発表しました。残りの6サイトにも64台のCS-3が搭載されると仮定すると、9サイトからなるクラスターは、当初約束されていたスパースFP16の36エクサフロップスではなく、実際には64 AIエクサフロップスの総合コンピューティング性能を誇ることになります。
しかし、Cerebras の CS-3 は 64 クラスターに限定されていないことは注目に値します。同社は、256 AI エクサフロップスの処理能力を持つ最大 2,048 システムまで拡張できると主張しています。
フェルドマン氏によれば、このようなシステムはMetaのLlama 70Bモデルを約1日でトレーニングすることができるという。
- セレブラスのスーパーコンピュータは世界最速の鉄よりも多くのコアを持っているが、大きな落とし穴がある
- Nvidia の驚異的な小型スーパーコンピューター Eos はどうなっているのでしょうか?
- 2024年はデータセンターシリコンにとって間違いなくエキサイティングな年になりそうだ
- セレブラスのコンドルギャラクシーAIスーパーコンピュータが36エクサフロップスを搭載して飛行
クアルコムとセレブラスが最適化推論で提携
Cerebras は次世代アクセラレータに加え、Arm SoC 大手の Qualcomm のデータセンター推論チップ向けに最適化されたモデルを構築するために Qualcomm と提携していることも明らかにした。
両社は少なくとも11月から協業の可能性を示唆してきた。クアルコムのCloud AI100 Ultraアクセラレータを発表したリリースには、フェルドマン氏によるこのチップを称賛する、かなり奇妙な発言が含まれていた。
発売を見逃した方のために説明すると、この 140W シングル スロット アクセラレータは、64 個の AI コアと 128GB の LPDDR4x メモリを誇り、Int8 精度で 870 TOPS、メモリ帯域幅は 548GB/s を実現できます。
数か月後、Cerebras のブログ記事では、Qualcomm がどのようにして Snapdragon SoC 上で 100 億のパラメータ モデルを実行できるようになったかが紹介されました。
今回正式に締結された提携により、両社はスパース性、投機的デコード、MX6、ネットワーク アーキテクチャ検索などの技術を活用した AI 100 Ultra 向けモデルの最適化に取り組むことになる。
この提携により、セレブラスとクアルコムはクアルコムのAI 100 Ultra推論チップ向けに最適化されたモデルを開発する(クリックして拡大)
既に述べたように、スパース性は適切に実装されれば、アクセラレータの性能を2倍以上に向上させる可能性があります。フェルドマン氏によると、投機的デコードとは、小型軽量モデルを用いて初期応答を生成し、その後、より大きなモデルを用いてその応答の精度を検証することで、モデルの展開効率を向上させるプロセスです。
「テキスト生成はテキストチェックよりも多くの計算を必要とすることが判明しました」と彼は述べた。「大規模なモデルを使ってチェックすることで、処理速度が上がり、計算量も少なくなります。」
両社は、モデルのメモリフットプリントを削減するためにMX6に注目しています。MX6は量子化の一種で、重みを低い精度に圧縮することでモデルを縮小することができます。一方、ネットワークアーキテクチャ探索は、特定のタスク向けにニューラルネットワークの設計を自動化し、パフォーマンスを向上させるプロセスです。
Cerebras は、これらの技術を組み合わせることで、1 ドルあたりのパフォーマンスが 10 倍向上すると主張しています。®
The Next Platform による Cerebras のテクノロジーの解説をぜひご覧ください。