分析AMD は、数年以内に、300 億パラメータの大規模言語モデルを 1 秒あたり 100 トークンの速度でローカルに実行できるノートブック チップを開発する予定です。
この目標(ファーストトークンレイテンシ100ミリ秒も必要)の達成は、言うほど簡単ではありません。ソフトウェアとハードウェアの両方の面で最適化が必要になります。AMDは、先月のComputexで発表されたRyzen AI 300シリーズStrix Pointプロセッサが、4ビット精度で最大約70億パラメータのLLMを、1秒あたり20トークンという控えめな速度で実行し、ファーストトークンレイテンシを1~4秒に抑えることができると主張しています。
AMDは、現在の70億、20 Tok/秒から、1秒あたり100トークン(Tok/秒)で300億パラメータモデルを実行することを目指しています。(クリックして拡大)
300億パラメータ、1秒あたり100トークンという「North Star」のパフォーマンス目標を達成するには、単にNPUの規模を大きくするだけでは不十分です。TOPSやFLOPSの向上は確かに効果的ですが、特に最初のトークンのレイテンシに関しては顕著です。しかし、大規模な言語モデルをローカルで実行するとなると、メモリ容量と帯域幅の方がはるかに重要になります。
この点では、Strix Point の LLM パフォーマンスは、主に 128 ビットのメモリ バスによって制限されます。LPDDR5x と組み合わせると、メモリの速度に応じて 120~135 GBps 程度の帯域幅が得られます。
額面通りに受け取ると、4ビットに量子化された真の300億パラメータモデルは、1秒あたり100トークンの目標を達成するために、約15GBのメモリを消費し、1.5TBps以上の帯域幅を必要とします。参考までに、これはHBM2を搭載した40GBのNvidia A100 PCIeカードとほぼ同じ帯域幅ですが、消費電力ははるかに高くなります。
つまり、モデルの要求を緩和する最適化を行わないと、AMD の将来の SoC では、チップ設計者の目標を達成するために、はるかに高速で大容量の LPDDR が必要になるということです。
AIはシリコンよりも速く進化している
AMD で SoC 開発に携わるシニア フェロー兼シリコン設計エンジニアの Mahesh Subramony 氏も、こうした課題を認識しています。
「我々はそこに到達する方法を知っている」とサブラモニー氏はThe Registerに語ったが、AMD の現在の目標を達成できる部品を設計することは可能かもしれないが、誰もそれを使用する余裕がなかったり、それを活用できるものがなかったりするのであれば、あまり意味がない。
「誰もがフェラーリを所有しなければならないと宣言して普及が始まれば、車は普及しない。まずは誰もが素晴らしいマシンを手に入れられるように宣言し、責任を持ってそれをどう活用できるかを示すことから始めなければならない」と彼は説明した。
「私たちは95%の人々のニーズを満たすSKUを構築しなければなりません」と彼は続けた。「1,300ドルのノートパソコンを買って、300億パラメータのモデルをクラウドで動かす方がずっといいんです。今はクラウドの方がまだ安いですからね。」
AI搭載PCの価値実証において、AMDはソフトウェアパートナーに大きく依存している。Strix Pointのような製品の場合、それは主にMicrosoftの協力関係を意味する。「Strixが設立された当初、Microsoftとの緊密な連携が、私たちの事業範囲をある程度決定づけていました」と彼は振り返る。
しかし、ソフトウェアは新しいハードウェアの方向性を導くのに役立つ一方で、新しいチップの開発と生産開始には何年もかかる可能性があると、サブラモニー氏は説明した。「世代AIとAIのユースケースは、それよりもはるかに速いペースで発展しています。」
ChatGPT のデビューから 2 年を経て、その進化の計画を立てた Subramony 氏は、AMD がコンピューティング需要の方向性をより正確に把握できるようになったと示唆しています。これは間違いなく、AMD がこの目標を設定した理由の 1 つです。
ボトルネックを克服する
メモリ帯域幅の問題を回避する方法はいくつかあります。例えば、LPDDR5を高帯域幅メモリに置き換えるという方法もありますが、Subramony氏が指摘するように、コストが大幅に増加し、SoCの消費電力も低下するため、必ずしも好ましい方法とは言えません。
「300億パラメータのモデルを実現できないのであれば、同等の忠実度を実現できるものを開発する必要があります。つまり、まずはモデルを小さくするなど、トレーニングにおいて改善が必要なのです」とスブラモニー氏は説明した。
幸いなことに、メモリ帯域幅を優先するか容量を優先するかに応じて、それを実現する方法がいくつかあります。
AMDがZen 5のIPCが16%向上したことを明かす
続きを読む
一つのアプローチとして、Mistral AIのMixtralに倣ったMixture of Experts(MoE)モデルの使用が考えられます。これらのMoEは、本質的には互いに連携して動作する複数の小規模モデルのバンドルです。通常、MoE全体がメモリにロードされますが、アクティブなサブモデルは1つだけであるため、同等のサイズのモノリシックモデルアーキテクチャと比較して、メモリ帯域幅の要件が大幅に削減されます。
6 つの 50 億パラメータ モデルで構成された MoE では、少なくとも 4 ビットの精度で 1 秒あたり 100 トークンの目標を達成するのに 250 GBps 強の帯域幅しか必要ありません。
もう一つのアプローチは、投機的デコードを使用することです。これは、小さく軽量なモデルでドラフトを生成し、それをより大きなモデルに渡して不正確さを修正するプロセスです。AMDによると、このアプローチはパフォーマンスを大幅に向上させるとのことですが、LLMが大量のメモリを必要とするという問題は必ずしも解決できません。
今日のほとんどのモデルは、Brain float 16またはFP16データ型で学習されており、パラメータごとに2バイトを消費します。つまり、300億パラメータのモデルをネイティブ精度で実行するには、60GBのメモリが必要になります。
しかし、大多数のユーザーにとってこれは現実的ではないため、モデルを8ビットまたは4ビット精度に量子化することは珍しくありません。これにより精度は低下し、幻覚の可能性は高まりますが、メモリ使用量は最大4分の1に削減されます。私たちの理解では、AMDは70億パラメータのモデルを1秒あたり約20トークンで動作させているようです。
- 市場がハードウェアのアップグレードを開始し、PCの売上がわずかに上昇
- Copilot+ PCのソフトウェア互換性の問題は、クラウドソーサーの助けを借りて解決する必要があります
- AMDは、AIブームの中、データセンターが依然として利益率の王者だと語る
- Intel、Lunar Lake PCチップが120 TOPSを実現する仕組みを詳細に説明
新しい加速形態が役立つ
ある種の妥協策として、Strix Point以降のXDNA 2 NPUはBlock FP16データ型をサポートしています。その名前にもかかわらず、パラメータあたり9ビットしか必要としません。これは、8つの浮動小数点値を受け取り、共通の指数を使用することで実現されています。AMDによると、この形式はネイティブFP16とほぼ区別がつかない精度を実現しながら、Int8よりもわずかに多くのメモリを消費するだけです。
さらに重要なのは、このフォーマットを利用するためにモデルを再トレーニングする必要がないということです。既存の BF16 および FP16 モデルは量子化ステップなしで動作します。
しかし、平均的なノートパソコンが 48GB 以上のメモリを搭載して出荷されない限り、AMD はモデルのフットプリントを縮小するより良い方法を見つける必要がある。
明確には言及されていませんが、AMDの将来のNPUや統合グラフィックスがMXFP6やMXFP4といったより小さなブロック浮動小数点フォーマット[PDF]のサポートを追加することは容易に想像できます。この点に関しては、AMDのCDNAデータセンターGPUがFP8をサポートし、CDNA 4がFP4をサポートすることは既に分かっています。
いずれにせよ、AI がクラウドを離れてデバイス上に常駐するようになると、PC ハードウェアは今後数年間で劇的に変化すると思われます。®