ベンチマークでは、古いNvidia RTX 3090でも数千人にLLMを提供するのに十分であることが示されています

大規模言語モデル（LLM）を数千ユーザー規模に拡張したい場合、強力なエンタープライズGPUが必須要件だと考えるかもしれません。しかし、少なくともBackpropによると、実際に必要なのは4年前のグラフィックカードだけです。

最近の投稿で、エストニアの GPU クラウドスタートアップは、2020 年後半にデビューした単一の Nvidia RTX 3090 が、FP16 で Llama 3.1 8B のような適度な LLM を提供し、許容できるスループットを維持しながら 100 件を超える同時リクエストを処理できることを実証しました。

ある瞬間にリクエストを発行するユーザーはごく少数であるため、Backpropは3090を1台導入すれば数千人のエンドユーザーをサポートできると主張している。同社は過去3年間GPUリソースをレンタルしており、最近セルフサービス型のクラウドサービスに移行した。

消費者向けハードウェアを使ってクラウドを構築するというのは奇妙な選択に思えるかもしれませんが、Backpropが初めてではないでしょう。ドイツのIaaS（Infrastructure as a Service）プロバイダーであるHetznerは、長年にわたりAMDのRyzenプロセッサファミリーをベースにしたベアメタルサーバーを提供してきました。

GPUとして、RTX 3090はLLMを実行するのに悪くないカードです。パフォーマンス面では、142テラフロップスの高密度FP16演算性能と936GB/秒のメモリ帯域幅を誇り、後者はLLM推論ワークロードにおけるパフォーマンスの重要な決定要因となります。

「3090は実は非常に高性能なカードです。テラフロップスのパワーで3090と同等のデータセンター性能を求めるなら、かなり高価なものを選ぶ必要があるでしょう」と、Backpropの共同創業者クリスト・オジャサール氏はThe Registerに語った。

このカードがAmpere世代のより高級なワークステーションやエンタープライズカードに劣るのは、メモリ容量です。24GBのGDDR6xメモリでは、Llama 3 70BやMistral Largeのようなモデルを4ビットまたは8ビットの精度で量子化したとしても、動作させることはできません。

したがって、Backprop が Llama 3.1 8B のような小型モデルを選択したのも不思議ではありません。このモデルはカードのメモリ内にうまく収まり、キー値のキャッシュに十分なスペースが残るからです。

このテストは、複数のGPUまたはノードにまたがる大規模なLLMを提供するために広く使用されている、人気のvLLMフレームワークを使用して実施されました。しかし、興奮しすぎる前に、これらの結果にはいくつかの注意点があります。

同時接続ユーザーが100人の場合、ユーザーあたりのスループットは1秒あたりわずか12.88トークンに低下します。出典：Backprop

同時接続ユーザーが100人の場合、ユーザーあたりのスループットは1秒あたりわずか12.88トークンに低下します。出典：Backprop - クリックして拡大

Backpropは、100人の同時ユーザーをシミュレートしたベンチマークテストで、このカードが各ユーザーに1秒あたり12.88トークンの速度でモデルを提供できることを発見しました。これは平均的な人の読解力（一般的に1秒あたり約5語と言われます）よりも速いですが、必ずしも速いとは言えません。とはいえ、AIチャットボットやサービスで許容される最低限の生成速度とされる1秒あたり10トークンは上回っています。

また、Backpropのテストは比較的短いプロンプトと最大出力100トークンのみを使用して行われた点も注目すべき点です。つまり、これらの結果は要約アプリというよりも、カスタマーサービスチャットボットに期待されるパフォーマンスをより的確に表していると言えます。

しかし、--use_long_contextvLLM ベンチマークスイートのフラグをに設定しtrue、プロンプトの長さを 200 ～ 300 トークンの範囲でさらにテストしたところ、Ojasaar は、3090 が 50 件の同時リクエストを処理しながら、1 秒あたり約 11 トークンという許容可能な生成速度を達成できることを発見しました。

これらの数値は、Llama 3.1-8BをFP16で実行中に測定されたものである点も注目すべき点です。モデルを8ビット、あるいは4ビットに量子化すると、理論上はこれらのモデルのスループットが2倍または4倍になり、カードは多数の同時リクエストを処理したり、同じ数のリクエストをより高速な生成レートで処理したりできるようになります。しかし、最近の量子化ガイドで説明したように、モデルを低精度に圧縮すると精度が低下する可能性があり、特定のユースケースでは許容できる場合とそうでない場合があります。

Ryzen 9000が期待外れに遅いと感じているゲーマーは、テストを間違えている、とAMDは言う
新たなGPUクラウドが登場。今回は新興のFoundry
AMDは新しいコードでMI300の潜在能力を最大限に引き出すことを望んでいる
AIバブル？ Groq、推論クラウド拡大で6億4000万ドルを調達

むしろ、Backprop のテストは、パフォーマンス分析と特定のタスクに対するワークロードの適切なサイズ設定の重要性を示しています。

「大規模クラウドの優れたマーケティングは、規模を拡大したい場合にはマネージドサービスが絶対に必要だと言っているのだと思います。あるいは、多数のユーザーにサービスを提供したい場合には、この特定のテクノロジーに本当に投資する必要があると言っているのだと思います。しかし、これは必ずしも真実ではないことを明確に示しています」とオジャサール氏は述べた。

より大きなモデル、より高いスループット、またはバッチサイズに拡張する必要があるユーザー向けに、Backprop は 40GB HBM2e を搭載した A100 PCIe カードを導入中であると Ojasaar 氏は語りました。

古いカードではあるが、単一のアクセラレータを複数に分割するマルチインスタンス GPU が利用できるようになったことで、愛好家や技術者にとってコストをさらに削減する機会が生まれると彼は言う。

古いゲームカードが同様のテストでどのような結果になるか興味がある場合は、Backprop の vLLM ベンチマークをこちらで確認できます。®

ベンチマークでは、古いNvidia RTX 3090でも数千人にLLMを提供するのに十分であることが示されています

Table of Contents

Discover More

東芝のノートパソコン用ディスクドライブがスリム化。ゲーマーの皆さん、気に入っていただけましたか？

IoTとスマートラベルに電力を供給するカード上の紙電池

Googleは独占企業だ。解決策は明らかではない

Table of Contents

Smart Recommendations

Discover More