Cerebrasはウェハスケールチップに推論技術を導入し、1秒あたり1,800トークン生成速度を実現したと発表

ホットチップ：多くの現代の生成AIワークロードにおける推論パフォーマンスは、通常、コンピューティング能力ではなくメモリ帯域幅に依存します。高帯域幅メモリ（HBM）へのビットの入出力が高速であればあるほど、モデルはより速く応答を生成できます。

Cerebra Systemsが初めて提供する推論ソリューションは、同社が以前発表したWSE-3アクセラレータをベースにしており、この主張を覆すものだ。HBMではなく、ディナープレートほどの大きさのシリコンスラブを搭載し、同社によれば21PBpsの帯域幅を実現する44GBのSRAMを搭載することに成功したからだ。ちなみに、Nvidia H200のHBM3e単体の帯域幅はわずか4.8TBpsだ。

CEO のアンドリュー・フェルドマン氏によれば、SRAM を使用することで、このパーツは Llama 3.1 8B を 16 ビット精度で実行しているときに 1 秒あたり 1,800 トークン以上を生成できるようになり、最高性能の H100 インスタンスでは 1 秒あたり 242 トークン以上を生成できるとのことです。

セレブラスは、ラマ3.1 8Bを実行することで、CS-3システムは1,800tok/sの性能を発揮できると述べている。

Llama 3.1 8Bを実行することで、CerebrasのCS-3システムは1秒あたり1,800トークンを処理できると述べている - クリックして拡大

Cerebrasは、700億パラメータのLlama 3.1を4基のCS-3アクセラレータに分散して実行した際に、毎秒450トークンを達成したと主張している。比較すると、H100の最高速度は毎秒128トークンだという。

セレブラス社によれば、同社のチップはユーザー当たり毎秒450トークンで700億パラメータのモデルを駆動できるという。

セレブラス社によると、同社のチップは700億パラメータのモデルをユーザーあたり毎秒450トークンで駆動できるという。 - クリックして拡大

フェルドマン氏は、このレベルのパフォーマンスは、ブロードバンドの普及と同様に、AI導入の新たな機会を切り開くと主張している。「今、私たちはジェネレーションAIのダイヤルアップ時代にあると思います」とフェルドマン氏は述べ、プロンプトが顕著な遅延を伴うジェネレーションAIの初期のアプリケーションを例に挙げた。

リクエストを十分に高速に処理できれば、複数のモデルに基づくエージェントアプリケーションを構築しても、レイテンシが許容できないレベルに達することなく実行できると彼は主張する。フェルドマン氏がこの種のパフォーマンスが有益だと考えるもう一つの応用は、LLMが最初の応答をそのまま吐き出すのではなく、複数のステップにわたって回答を反復処理できるようにすることだ。トークンを十分に高速に処理できれば、これが裏で行われているという事実を隠すことができる。

しかし、1 秒あたり 1,800 トークンは高速に思えるかもしれませんし、実際高速ですが、ざっと計算してみると、システムの計算能力に制約がなかったら、Cerebra の WSE-3 はもっと高速にトークンを吐き出せるはずだということがわかります。

これまでAIトレーニングに主に注力してきたセレブラスにとって、今回の製品はある種の転換点となる。しかし、ハードウェア自体は実際には変更されていない。フェルドマン氏はThe Registerに対し、推論とトレーニングには同じWSE-3チップとCS-3システムを使用していると語った。そして、これはトレーニングに使用できなかった部品ではないことを明らかにした。

「われわれが行ったのは、コンパイラの機能を拡張して、チップ上に複数の層を同時に配置できるようにすることだ」とフェルドマン氏は語った。

SRAMは高速だが、HBMの方が容量が大きいように見える

SRAMはパフォーマンス面ではHBMよりも明らかに優れていますが、容量面で劣っています。大規模言語モデル（LLM）の場合、Cerebrasがターゲットとする高バッチサイズではキー値キャッシュがかなりの容量を占有することを考慮すると、44GBでは十分とは言えません。

Meta の Llama 3 8B モデルは WSE-3 の理想的なシナリオであり、16GB (FP16) のサイズでモデル全体がチップの SRAM 内に収まり、キー値キャッシュ用に約 28GB のスペースが残ります。

フェルドマン氏は、WSE-3 は極めて高いスループットに加え、より大きなバッチサイズに拡張できると主張しているが、ユーザーごとのトークン生成率をどの程度まで拡張して維持できるかについては、スタートアップは明言をためらっている。

「現在、当社のバッチサイズは頻繁に変更されています。第4四半期には、バッチサイズが2桁に達すると予想しています」とセレブラスは語った。

さらに詳細を問われると、同社は「現在のバッチサイズはまだ成熟していないため、提供は控えさせていただきます。システムアーキテクチャは高いバッチサイズで動作するように設計されており、今後数週間でそのサイズに到達できる予定です」と付け加えた。

最新のGPUと同様に、Cerebrasは複数のCS-3システムにまたがるモデルを並列化することでこの課題を回避しています。具体的には、Cerebrasはパイプライン並列化を用いてモデルのレイヤーを複数のシステムに分散させています。

140GBのメモリを必要とするLlama 3 70Bでは、モデルの80層がイーサネットで相互接続された4つのCS-3システムに分散されています。当然のことながら、データがこれらのリンクを通過する必要があるため、パフォーマンスは低下します。

CS-3には44GBのSRAMしか搭載されていないため、より大きなモデルをサポートするには複数のアクセラレータを組み合わせる必要がある。

CS-3には44GBのSRAMしか搭載されていないため、より大きなモデルをサポートするには複数のアクセラレータを組み合わせる必要があります - クリックして拡大

フェルドマン氏によると、レイテンシへの影響はさておき、ノード間のレイテンシは想像するほど大きくはないという。「ここでのレイテンシは確かに存在しますが、小さいものです。そして、チップ上の他のすべてのレイヤーを通過するトークンに分散されます」とフェルドマン氏は説明した。「最終的に、トークン上のウェハ間のレイテンシは、全体の約5%を占めます。」

最近発表されたLlama 3の4050億パラメータバリアントのようなより大規模なモデルの場合、Cerebrasは12台のCS-3システムを使用して1秒あたり約350トークンを達成できると見積もっています。

Groqへの批判

HBMからSRAMへの移行に聞き覚えがあるなら、それはCerebrasが初めてではないからです。お気づきかもしれませんが、Cerebraの次に近い競合は（少なくともパフォーマンス面での主張では）Groqです。

Groqの言語処理ユニット（LPU）は、SRAMを利用するという点でCerebrasと同様のアプローチを採用しています。違いは、GroqのアーキテクチャはSRAMの密度が低いため、特定のモデルをサポートするには光ファイバーで接続されたアクセラレータをはるかに多く必要とすることです。

CerebrasはLlama 3 70Bを毎秒450トークンで動作させるのに4台のCS-3システムを必要としますが、Groqは以前、毎秒300トークンを超えるには576個のLPUが必要だと述べていました。Cerebrasが引用したGroqのArtificial Analysisベンチマークでは、毎秒250トークンと、わずかに低い結果となりました。

フェルドマン氏は、Cerebrasが量子化に頼ることなくこれを実現できることを強調しています。Cerebrasは、Groqがパフォーマンス目標を達成するために8ビットの量子化を使用していると主張しています。これにより、精度は多少低下しますが、モデルサイズ、計算オーバーヘッド、メモリ負荷が軽減されます。量子化の長所と短所については、こちらのハンズオンで詳しくご覧いただけます。

マイクロソフトのBing Copilotが記者を自分が取材した犯罪で告発
ベンチマークでは、古いNvidia RTX 3090でも数千人にLLMを提供するのに十分であることが示されています
LiquidStackは、新しいCDUが1MW以上のAIコンピューティングを冷却できると述べている。
AIを活用した新しいデータセンタースペースって？そう、ほとんどはクラウド大手のものだ

可用性

Groqと同様に、CerebrasはOpenAI互換APIを介して推論サービスを提供する予定です。このアプローチの利点は、GPT-4、Claude、Mistral、その他のクラウドベースモデルをベースに既にアプリを開発している開発者が、Cerebraの推論機能を組み込むためにコードをリファクタリングする必要がないことです。

コスト面では、セレブラスはLlama3-70Bを100万トークンあたり60セントで提供し、競合他社よりも低価格を目指しています。ちなみに、これは入力トークンと出力トークンの比率が3:1の場合を想定しています。

比較すると、Cerebrasは競合クラウドのH100で同じモデルを提供するコストを100万トークンあたり2.90ドルと見積もっています。しかし、AI推論ではよくあることですが、モデルの提供コストとパフォーマンスに直接影響を与える調整要素が多数あるため、Cerebraの主張は鵜呑みにしないようにしましょう。

しかし、Groqとは異なり、Cerebrasは、規制の厳しい業界で事業を展開している顧客など、特定の顧客向けにオンプレミスのシステムを引き続き提供していくとFeldman氏は述べている。

Cerebrasは競合アクセラレータに対してパフォーマンス面で優位性を持っているかもしれませんが、サポートするモデルの種類は依然として限られています。リリース時点では、CerebrasはLlama 3.1の80億パラメータ版と700億パラメータ版の両方をサポートしています。しかし、同社は405B、Mistral Large 2、Command R+、Whisper、Perplexity Sonar、そしてカスタム微調整モデルのサポートを追加する予定です。®

Cerebrasはウェハスケールチップに推論技術を導入し、1秒あたり1,800トークン生成速度を実現したと発表

Table of Contents

SRAMは高速だが、HBMの方が容量が大きいように見える

Groqへの批判

可用性

Discover More

ドイツ省庁は「デジタル主権」の奪還に全力を尽くし、マイクロソフトへの依存を減らしている

選挙会場のパンクホールを報告した研究者が逮捕される

DataDirect Networksは窮地に陥っている。創業者たちはそこから抜け出せるだろうか？

Table of Contents

SRAMは高速だが、HBMの方が容量が大きいように見える

Groqへの批判

可用性

Smart Recommendations

Discover More