コメント: GoogleのTPUやAmazonのTrainium ASICといったカスタムクラウドシリコンを除けば、現在構築されているAIトレーニングクラスターの大部分はNVIDIAのGPUを搭載しています。しかし、NVIDIAはAIトレーニングの分野では勝利を収めたかもしれませんが、推論の分野ではまだ決着がついていません。
これまでは、より優れた、より高性能で、より信頼性の高いモデルの構築に重点が置かれてきました。一方、推論ワークロードの多くは、AIチャットボットや画像ジェネレーターといった概念実証や、容易に実現可能なものという形をとってきました。そのため、AIコンピューティングの多くは推論ではなく学習に最適化されてきました。
しかし、これらのモデルが改良され、アプリケーションがより複雑になり、AIが私たちの日常生活に深く浸透するにつれて、この比率は今後数年間で劇的に変化すると予想されます。この変化を受けて、AIトレーニングでチャンスを逃した多くのチップ企業は、NVIDIAの市場支配に挑戦する機会に今、期待を寄せています。
ニッチを見つける
トレーニングでは、ほとんどの場合、大量のコンピューティングが必要となり、多くの場合、データ ホール全体にまたがり、一度に数日間または数週間にわたってメガワット単位の電力を消費しますが、それと比較すると、推論ははるかに多様なワークロードです。
推論に関しては、パフォーマンスは主に次の 3 つの主要な要素によって決まります。
- メモリ容量によって、実行できるモデルが決まります。
- メモリ帯域幅は、応答が生成される速度に影響します。
- コンピューティングは、モデルが応答するまでにかかる時間と、一度に処理できるリクエストの数に影響します。
ただし、どれを優先するかは、モデルのアーキテクチャ、パラメータ数、ホスティング場所、対象ユーザーによって大きく異なります。
たとえば、レイテンシに敏感な小規模モデルは、低電力 NPU または CPU の方が適している可能性がありますが、数兆パラメータの LLM には、テラバイト単位の非常に高速なメモリを備えたデータセンター クラスのハードウェアが必要になります。
後者の例は、まさにAMDがMI300シリーズGPUで狙っていたと思われるものです。このGPUは192GBから256GBの高速HBMメモリを誇ります。メモリ容量が豊富なため、AMDはNVIDIAよりも大規模なフロンティアモデルを単一のサーバーに詰め込むことができます。MetaやMicrosoftといった企業がAMDの採用に熱心だった理由も、このことが説明できるかもしれません。
一方、Cerebras、SambaNova、Groq などの企業 (xAI の Grok シリーズのモデルとは別) は速度を優先し、SRAM を多用するチップ アーキテクチャと投機的デコードなどのトリックを活用して、最高の GPU ベースの推論サービス ベンダーがこれまでに達成した速度よりも 5 倍、10 倍、または 20 倍も速くモデルを実行しています。
DeepSeekは企業がAI投資をより慎重に検討する必要があることを示唆している
続きを読む
質問に答えるために何千もの単語、もっと正確に言えばトークンを生成する必要があるかもしれない思考連鎖推論モデルの台頭により、超高速推論は単なる小技から実際に役立つものへと変化しています。
そのため、d-Matrixなどのスタートアップ企業が「高速推論」分野に参入しようとしているのも不思議ではありません。同社は第2四半期に発売予定のCorsairアクセラレータで、Llama 70Bなどのモデルをトークンあたり2ミリ秒という低レイテンシで実行できるようになると予想しており、これは当社の推定では1秒あたり500トークンに相当します。同社は次世代Raptorシリーズチップ向けに、さらに大型のモデルの開発に注力しており、垂直積層DRAMを採用することでメモリ容量と帯域幅を向上させるとされています。
低速域では、Hailo AI、EnCharge、Axelera などのベンダーが、エッジおよび PC 市場向けに低消費電力で高性能なチップを開発するケースが増えています。
PC 市場について言えば、AMD、Intel、Qualcomm、Apple などの大手チップメーカーは、AI 強化ワークフローをサポートするために、さらに強力な NPU を SoC に統合しようと競い合っています。
最後に、クラウド プロバイダーやハイパースケーラー プロバイダーを無視することはできません。これらのプロバイダーの多くは、引き続き Nvidia のハードウェアを購入しながら、同時に自社製シリコンへの投資も行っていくでしょう。
Nvidiaをまだ諦めてはいけない
Nvidiaは確かにかつてないほどの競争に直面していますが、AIインフラ分野では依然として最大手です。最新世代のGPUによって、同社は明らかに大規模推論環境への移行に向けて準備を進めています。
- マイクロソフトが新たなCopilotホットキーを追加 – 今回はAI音声チャット用
- セレブラスはAIアクセラレーターを搭載した北米とフランスのデータセンターを照らす
- マヌスマニア到来:中国の「ジェネラルエージェント」は今週の「AIの未来」であり、OpenAIキラーである
- Axiom SpaceとRed Hatがエッジコンピューティングを軌道上に導入
特に、昨年発表されたNvidiaのGB200 NVL72は、NVLinkコンピューティングドメインを72個のGPUに拡張し、合計1.4エクサFLOPS以上と13.5TBのメモリを搭載しています。
これまで、NVIDIA の最も高性能なシステムでも、ノードあたりわずか 8 基の GPU と 640 GB から 1.1 TB の vRAM しか搭載されていませんでした。つまり、GPT-4 のような大規模で最先端のモデルは、すべてのパラメータをメモリに収めるだけでなく、妥当なスループットを実現するためにも、複数のシステムに分散する必要がありました。
Nvidia の予測が信じられるのであれば、NVL72 の高速相互接続ファブリックにより、8 ノード、64 GPU の H100 クラスターと比較して、GPT-4 などの 1.8 兆パラメータ規模の専門家の混合モデルのスループットが 30 倍向上します。
さらに重要なのは、これらは汎用GPUであるため、学習や推論だけに限定されないことです。新しいモデルの学習に使用し、後で再タスク化して実行することも可能です。これは、ジェンセン氏の領域を狙うすべてのシリコン新興企業に当てはまるわけではありません。
GTC が来週開幕するにあたり、Nvidia は次世代の Blackwell-Ultra プラットフォームの詳細を発表すると予想されている。このプラットフォームは、同社の H200 世代 GPU と似たようなものである場合、特に推論を念頭に置いて調整されるはずだ。
今年初めにNvidiaのBlackwellベースのRTXカードが発売されたことを考えると、L40の後継機や、ワークステーションクラスの刷新されたカードが登場しても驚かないでしょう。
結局のところ、推論は1ドルあたりのトークンのゲームである
AI サービス プロバイダーが最終的にどのようなハードウェアを自社のビット バーンに詰め込むにせよ、推論の経済性は最終的には 1 ドルあたりのトークンに集約されます。
開発者が最新モデルへのアクセスやより高いスループットのために追加料金を支払うことを望まないと言っているわけではありません。特に、それがアプリやサービスの差別化につながるのであればなおさらです。
しかし、開発者の観点から見ると、これらのサービスは、アプリを接続してトークンをオンデマンドで流すための API スピゴットにすぎません。
Nvidia の Blackwell パーツや、聞いたこともないような特注のアクセラレータを使用しているという事実は、通常は OpenAI 互換の API エンドポイントとなるものの背後で完全に抽象化されています。®