SambaNova、推論クラウドデビューでLlamaを躍動させる

Table of Contents

SambaNova、推論クラウドデビューでLlamaを躍動させる

ライバルの AI システム新興企業に負けまいと、SambaNova は独自の推論クラウドを立ち上げ、Meta の最大のモデルを他よりも速く提供できるようになったとしている。

このクラウドサービスは、AIブームの中で登場した数々のサービスの一つであり、人気のオープンウェイトモデルへのAPIアクセスを提供しています。これらのほとんどはGPUベースですが、Cerebras、Groq、そしてSambaNovaといった、特殊なハードウェアを扱う小規模ベンダーにとっては、最大のモデルから最速でトークンを吐き出せる者が優位に立つようです。

ご存知ない方のために説明すると、ここでのトークンとは、大規模な言語モデルが単語、単語の断片、句読点、数字をエンコードする方法を指します。つまり、インフラストラクチャがトークンを生成する速度が速いほど、応答を待つ時間が短くなります。

CEO のロドリゴ・リアン氏によれば、SambaNova は Meta の 4,050 億パラメータの Llama 3.1 モデル (OpenAI の GPT-3.5 モデルの 2 倍以上のサイズ) を使い、1 秒あたり 132 の速度でトークンを生成し、さらにトレーニングされた完全な 16 ビット精度でトークンを生成することに成功したとのことです。

平均的な人が1秒あたり約5語の速度で読めると推定されています。SambaNovaの発表で引用されたArtificial Analysisのデータによると、SambaNovaのシステムは1秒あたり132トークンで、次に速いGPUシステムのほぼ2倍の速度です。

Artificial Analysis のデータによると、SambaNova の SN40L ベースのシステムは競合プラットフォームのほぼ 2 倍の速度を実現します。

Artificial Analysisのデータによると、SambaNovaのSN40Lベースのシステムは、競合プラットフォームのほぼ2倍の速度を実現しています。 - クリックして拡大

ペダルを踏み込む

今夏初めに発表されたLlama 3.1 405Bは、OpenAI、Anthropic、Googleなどのより大規模なモデルと互角に戦えるMeta初のフロンティアクラスのモデルです。

競合モデルよりもはるかに小型ではあるものの、405Bを16ビット精度で動作させるのは容易ではありません。メモリに収めるだけでも810GBもの容量が必要になり、キーバリューキャッシュに必要な容量は含まれていません。

SambaNovaは、このモデルを実行するために、64GBの高速HBM3メモリと520MBのオンダイSRAMを搭載したSN40Lアクセラレータを16個使用しました。コードネーム「Cerulean 1」と呼ばれるこのチップの詳細な情報は、姉妹サイト「The Next Platform」でご覧いただけます。

この構成により、SambaNovaは405Bで1秒あたり132トークン、より小規模な700億パラメータバリアントでは1秒あたり461トークンのスループットを達成したと誇っています。一方、Artificial Analysisのデータによると、最高のGPUベースシステムでさえ、Metaの405Bモデルでは1秒あたり72トークンしか処理できず、ほとんどのシステムはそれよりもはるかに遅いことが示されています。

さらに、このスタートアップは、バッチサイズが4までであれば、1秒あたり100トークンを超えるパフォーマンスを維持できると主張しています。つまり、最大4つの同時リクエストに対応できるということです。SambaNovaのソフトウェア製品部門責任者であるアントン・マクゴネル氏によると、この性能をさらに拡張できる余地があるとのこと。

マクゴネル氏はRegister紙に対し、このレベルのパフォーマンスはSN40Lの大容量キャッシュのおかげもあると語った。これにより、マルチGPUシステムによく見られるパフォーマンスオーバーヘッドを回避できると付け加えた。

「GPU がメモリ帯域幅を本当に活用できれば、はるかに高速になるはずだが、それができない」と彼は説明した。

しかし、SambaNovaはLlama 3 405Bを16ビット精度で動作させることに成功しましたが、妥協がないわけではありませんでした。最大の譲歩の一つは、モデルが128kトークンのコンテキストウィンドウをフルに使用せず、8kに削減されたことです。

「発売当初はトラフィックの問題もあるため、8Kバージョンのみ提供しています」とマクゴネル氏は述べた。「128Kを使い始めると、他のユーザーの速度が低下してしまいます。」

これは、カスタマー サービス チャットボットなどのパフォーマンスに悪影響を与える可能性は低いですが、ドキュメント要約などのより長いコンテキストのアプリケーションでは、サービスの実用性が制限されます。

  • メインフレームは死んでいない、ただAIのトリックを学んでいるだけだ
  • AIは現在、力ずくの段階にあります。それが終われば、GPUの需要もなくなるでしょう。
  • エネルギー省、スーパーコンピューティングの再活性化に2300万ドルを投入
  • Cerebrasはウェハスケールチップに推論技術を導入し、1秒あたり1,800トークン生成速度を実現したと発表

競争が激化する

SambaNova Cloudの無料および有料のエンタープライズ層は、本日よりご利用いただけます。また、このインフラプロバイダーは今年後半に開発者層の提供も予定しており、より高いレート制限に加え、開発者がLlama 3.1ベースのモデルを構築できるようになります。

しかし、前述の通り、GPUベースの製品群の中でスピードを重視して差別化を図っているインフラベンダーは、SambaNovaだけではありません。先月末のHot Chipsカンファレンスで独自の推論クラウドを発表したCerebrasは、Llama 3.1 70Bで既に最大450トークン/秒の性能を誇り、405Bバリアントでは350トークン/秒を達成できると予想しています。もしCerebrasが実際にこの性能を実現できれば、たとえ12個のウエハスケールチップが必要になるとしても、SambaNovaを大きくリードすることになります。

Groqもその一つで、同社は約576個の言語処理ユニットを用いてLlama 2 70Bで毎秒300トークンのスループットを達成しました。同社は最近、シリーズDの資金調達ラウンドで6億4000万ドルを調達し、次世代アクセラレータの開発を加速させるなど、様々な取り組みを進めています。®

Discover More