今週開催されたNVIDIAのGPUテクノロジーカンファレンスGTCでは、同社のBlackwell Ultraと、今後発売予定のVeraおよびRubinのCPUとGPUが話題の中心となりました。しかし、この年次開発者イベントで最も重要な発表の一つは、チップそのものではなく、大規模なAI推論の課題に取り組むために設計されたDynamoと呼ばれるソフトウェアフレームワークだったと言えるでしょう。
GTCのステージ上で発表されたこのAIは、CEOのジェンスン・フアン氏によって「AI工場のオペレーティングシステム」と表現され、産業革命のきっかけとなった現実世界のダイナモに例えられた。「ダイナモは、前回の産業革命のきっかけとなった最初の装置でした」とフアン氏は述べた。「エネルギーの産業革命、つまり水が流れ込み、電気が生み出されるのです。」
オープンソースの推論スイートは、本質的に、TensorRT LLM、SGLang、vLLM などの推論エンジンをより最適化し、大量の GPU で可能な限り迅速かつ効率的に実行できるように設計されています。
以前にも説明したように、モデルからトークンを次々とより速く、より安価に生成できればできるほど、ユーザー エクスペリエンスは向上します。
推論は見た目よりも難しい
大まかに言えば、LLMの出力パフォーマンスは、プリフィルとデコードの2つのカテゴリーに分けられます。プリフィルは、GPUの浮動小数点行列演算アクセラレータが入力プロンプトをどれだけ速く処理できるかによって決まります。プロンプトが長いほど(例えば要約タスクなど)、プリフィルにかかる時間は通常長くなります。
一方、デコードは、ほとんどの人が LLM パフォーマンスと関連付けるものであり、ユーザーのプロンプトに対する応答として GPU が実際のトークンをどれだけ速く生成できるかに相当します。
GPUにモデルに適合する十分なメモリがある限り、デコード性能は通常、メモリの速度と生成するトークンの数に依存します。8TB/秒のメモリ帯域幅を持つGPUは、3.35TB/秒のGPUの2倍以上の速度でトークンを生成できます。
物事が複雑になり始めるのは、AI リサーチ アシスタントや推論モデルのように、より長い入力および出力シーケンスを持つ、より大規模なモデルをより多くの人々に提供することを検討し始めるときです。
大規模なモデルは通常、複数の GPU に分散されますが、これを実現する方法はパフォーマンスとスループットに大きな影響を与える可能性があります。この点については、Huang 氏が基調講演で詳しく説明しました。
NVIDIA CEOのジェンスン・フアン氏の基調講演のスライドからわかるように、推論パフォーマンスはモデルの分散方法によって大きく異なります。グラフは、1ユーザーあたりの1秒あたりのトークン数と、メガワットあたりの1秒あたりのトークン数全体を示しています…クリックして拡大
「パレートフロンティアの下には、データセンターを構成できる点が何百万個もあります。作業を並列化したり、分割したり、様々な方法でシャーディングしたりすることができたはずです」と彼は述べた。
彼が言いたいのは、モデルの並列化方法によっては、数百万の同時ユーザーにサービスを提供できるものの、1秒あたり10トークンしか生成できない可能性があるということです。一方、別の組み合わせでは、数千の同時リクエストしか処理できないものの、瞬く間に数百のトークンを生成できる場合もあります。
Huang氏によると、ワークロードがこの曲線のどの部分で個々のパフォーマンスの理想的なバランスを実現しつつ、最大限のスループットを達成できるかを把握できれば、サービスにプレミアム料金を請求しながら運用コストを削減できるとのことです。これは、少なくとも一部のLLMプロバイダーが、生成アプリケーションやサービスをより多くの顧客にスケールアップする際に行っているバランス調整だと私たちは考えています。
ダイナモを始動する
パフォーマンスとスループットの間の適切なバランスを見つけることが、Dynamo が提供する重要な機能の 1 つであると言われています。
Dynamo は、エキスパート、パイプライン、またはテンソルの並列処理の理想的な組み合わせについての洞察をユーザーに提供するだけでなく、プリフィルとデコードをさまざまなアクセラレータに分散します。
Nvidia によれば、Dynamo の GPU プランナーは、需要に基づいて、プリフィルとデコード専用にすべきアクセラレータの数を決定します。
しかし、Dynamoは単なるGPUプロファイラーではありません。このフレームワークには、重複するリクエストを識別して特定のGPUグループに振り分けるプロンプトルーティング機能も搭載されており、キーバリュー(KV)キャッシュヒットの可能性を最大化します。
ご存知ない方のために説明すると、KVキャッシュはモデルの状態を特定の時点で表します。そのため、複数のユーザーが短時間に同様の質問をした場合、モデルはモデルの状態を何度も再計算するのではなく、このキャッシュから情報を取得できます。
スマート ルーターに加えて、Dynamo には、GPU 間のデータ フローを高速化する低遅延通信ライブラリと、応答性を最大化し、待機時間を最小限に抑えるために、HBM からシステム メモリまたはコールド ストレージに KV キャッシュ データをプッシュまたはプルするメモリ管理サブシステムも搭載されています。
Nvidiaは、Llamaモデルを実行するHopperベースのシステムにおいて、Dynamoによって推論性能が実質的に2倍に向上すると主張しています。一方、より大規模なBlackwell NVL72システムでは、このフレームワークを有効にすることで、DeepSeek-R1においてHopperの30倍の性能向上が達成できるとGPU大手は主張しています。
- エヌビディアは、CEOが量子コンピューティングが実用化されるまでに数十年かかると発言してから数週間後に量子コンピューティングに投資した。
- NvidiaのVera Rubin CPU、GPUロードマップは、600kWラックの超ホットホットの道筋を示している
- NvidiaはDGX Station、Spark PCでGB300スーパーチップをデスクに搭載したいと考えている
- HBMがお気に召しました – NvidiaのBlackwell Ultra GPUには288GBのHBMが搭載されます
幅広い互換性
Dynamo は、置き換える Triton Inference Server と同様に、明らかに Nvidia のハードウェアおよびソフトウェア スタック向けに調整されていますが、このフレームワークは、vLLM、PyTorch、SGLang などのモデル提供用の一般的なソフトウェア ライブラリと統合するように設計されています。
つまり、Nvidia GPU に加えて多数の AMD または Intel アクセラレータも含まれる異機種コンピューティング環境で作業している場合、別の推論エンジンを認定して維持する必要はなく、すでに使用している vLLM または SGLang を使い続けることができます。
DynamoはAMDやIntelのハードウェアでは動作しませんが、Ampere以降のNvidia GPUであれば動作します。つまり、まだA100を複数枚購入している方でも、Nvidiaの新しいAI OSの恩恵を受けることができます。
Nvidia はすでに GitHub で Dynamo を起動して実行するための手順を公開しており、展開を容易にするためにフレームワークをコンテナ イメージ (Nvidia では NIM と呼んでいます) として提供する予定です。®
今すぐ読む: NvidiaがAIを企業に導入