CPUのみのAIの厄介な経済性

分析：現在、GenAIモデルのほとんどはGPUやその他の専用アクセラレータで学習・実行されていますが、必ずしもそうしなければならないわけではありません。実際、複数のチップメーカーは、多くのエンタープライズAIユースケースにおいてCPUで十分すぎるほどだと示唆しています。

Google は現在、CPU ベースの推論と微調整というテーマを再燃させ、Intel の第 4 世代 (Sapphire Rapids) Xeon コアに組み込まれた高度なマトリックス拡張機能に関する経験を詳しく説明しています。

検索・広告大手の同社はテストで、70億～130億のパラメータ範囲で16ビット精度の大規模言語モデル（LLM）を実行する際に、許容範囲内と考えられる秒トークン遅延を達成できると判断した。

GoogleはThe Registerへのメールで、176個のvCPUを搭載したC3 VMを使用し、7Bパラメータモデルで出力トークンあたりの時間（TPOT）を55ミリ秒に抑えることができたと述べています。私たちの理解では、これらのテストではハイパースレッディングが無効になっていたため、VMのスレッドのうち実際にアクティブだったのは88個のみでした。

Googleは、第4世代Xeonのペアを使用して、Llama 2 7Bでトークンあたり55ミリ秒の出力レイテンシを達成できたと述べています。

Googleは、第4世代Xeonを2つ使用することで、Llama 2 7Bでトークンあたり55ミリ秒の出力レイテンシを達成できたと述べている - クリックして拡大

スループットを測定するため、GoogleはLlama 2モデルをバッチサイズ6でテストしました。これは、6人のユーザーからの同時リクエストをシミュレートするようなものです。7Bの小型バージョンでは、IntelのTDXセキュリティ機能が有効かどうかに応じて、VMは1秒あたり約220～230トークンを処理しました。13Bの大型バージョンでは、その半分強のパフォーマンスでした。

Llama 2 7Bのバッチサイズ6では、GoogleはXeonから1秒あたり約230トークンを絞り出すことに成功した。

Llama 2 7Bのバッチサイズ6で、GoogleはXeonから1秒あたり約230トークンを絞り出すことに成功した - クリックして拡大

Google はまた、スタンフォード質問回答データセット (SQuAD) を使用して、Meta の 1 億 2,500 万パラメータの RoBERTa モデルの微調整をテストしました。TDX が有効になっているかどうかに関係なく、AMX アクセラレーション C3 インスタンスは 25 分未満でジョブを完了することができました。

結果は言語モデルの実行と微調整が可能であることを明確に示していますが、Googleの分析の本来の目的はそこではありませんでした。グラフからお気づきかもしれませんが、GPUとの比較はありません。これは、この投稿の目的が、GenAIワークロードにおいてAMXが旧型のIce Lake Xeonよりも高速であること、そしてTDXの有効化に伴う影響が最小限であることを示すことだったためです。

この点において、AMXとSapphire Rapidsの高速DDR5メモリは、旧型のXeonを搭載したN2インスタンスと比べて大幅な高速化を実現します。Googleによると、AMX対応のC3 VMに切り替えたところ、標準のN2インスタンスと比較して、微調整処理で4.14倍～4.54倍の高速化が実現しました。一方、推論処理では、レイテンシが3倍、スループットが7倍向上したとされています。

GenAI ワークロードに GPU の代わりに Google の AMX 対応 C3 または新しい Emerald Rapids ベースの C4 インスタンスを使用することが合理的かどうかは、まったく別の問題です。

AIがGPUと関連付けられるのには理由がある

AIブームの中でGPUが高価で、需要が非常に高いことは周知の事実です。中古市場ではH100が1台4万ドルで取引されているのを目にしました。クラウドプロバイダーからレンタルするのも安くはなく、最良の条件で購入するには1～3年の契約が必要になる場合が多いです。

朗報です。モデルの規模によっては、NVIDIAやAMDの最高性能アクセラレータは必要ないかもしれません。MetaのLlama 2 7Bと13Bは、AMDのMI210やNVIDIAのL4、L40Sといった、はるかに安価なチップでも問題なく動作します。後者2つは、動作に必要な仮想CPUとメモリを含め、月額600～1,200ドル程度でレンタルできます。もちろん、いろいろと調べてみる気があれば、契約期間の縛りはありません。

これはCPUベースのAIにとって深刻な問題です。CPUはGPUよりも安価だと思われがちですが、Googleの例で使用されている176 vCPUのC3インスタンスは決して安くはなく、Googleの料金計算ツールによると、月額5,464ドルかかります。

これを1ドルあたりのトークン数に換算すると、このCPUはどんな種類の拡張ワークロードにも適しているとは言えません。1秒あたり約230トークンという数値から判断すると、Googleは70億パラメータのLlama 2モデルをバッチサイズ6で実行した際に、C3インスタンスから100万トークンあたり約9ドルというコストを削減することができました。これは、100万トークンあたり約9ドルに相当します。3年間契約を結ぶことができれば、月額2,459ドル、つまり100万トークンあたり約4ドルにまで下がります。

GPUとの比較は少し難しいです。Googleのテストで使用された入力トークンと出力トークンの数が不明だからです。私たちのテストでは、要約タスクをシミュレートするために、入力プロンプトを1,024トークン、出力を128トークンに設定しました。

Nvidia L40Sでこれを実行したところ、バッチサイズ6、Llama 2 7B、FP16で毎秒約250トークンのスループットを達成できることがわかりました。Vultrでレンタルする場合、1時間あたり1.68ドル、または月額1,226ドルです（他ではもっと安くレンタルできるかもしれません）。これは、生成されるトークン100万個あたり約1.87ドルに相当します。しかし、GPUはバッチサイズ16までパフォーマンスをスケーリングし続けることができ、毎秒500トークンのスループット、つまり100万トークンあたり0.93ドルのスループットを達成しました。

重要なのは、CPU がそのパフォーマンスに匹敵するには、GPU よりもはるかに大きなバッチサイズを処理する必要があるということです。

たとえより大きなバッチサイズに拡張できたとしても、どちらの部分もあくまでも最良のシナリオを想定しているに過ぎません。なぜなら、そのバッチサイズを維持するには、キューを常に満杯にしておくのに十分なリクエスト数が必要であり、従業員が1日の終わりにログオフするような企業では、そのような状況は考えにくいからです。

サーバーレスCPUおよびGPUサービスを使用することで、こうした問題の一部を軽減できます。これらのサービスでは、需要に応じてワークロードを自動的に増減できます。プラットフォームによっては、コールドスタート時にレイテンシが発生する可能性がありますが、お客様が実際に使用したGPUまたはCPU時間に対してのみ料金を支払うことが可能になります。

これらのサービスの中には、トークン単位で課金されるものもあります。例えば、Fireworks.AIは、40億から160億のパラメータを持つモデルに対して、100万トークンあたり20セントの料金を請求します。これは、GPUを時間単位でレンタルするよりもかなり安価です。あるいは、専用ハードウェアをレンタルまたは購入するのと同じ価格で、API経由ではるかに大規模で高性能なモデルにアクセスすることも可能です。ただし、ワークロードの性質によっては、この方法が適切ではない場合や、違法となる場合もあります。

ハギング・フェイスはNVIDIAのソフトウェアへの野望に圧力をかける
Granite RapidsでIntelはAMDとの激しい攻防に再び突入
BOFH : ボスがAIの電源プラグを抜いたので、私たちも彼の電源プラグを抜きました
欧州のデータセンターのエネルギー消費量は10年末までに3倍に増加

CPUをまだ諦めないで

Intel の第 4 世代 Xeon は AI モデルを導入する最も高速または安価な方法ではないかもしれませんが、だからといってそれが自動的に悪いアイデアだというわけではありません。

まず、オンプレミス展開や既存のクラウド契約について話す場合、コストに関する議論は少し変わります。特に、既に十分に活用されていないコアが多数ある場合はなおさらです。8,000ドルのGPUとそれを搭載するシステムを購入しなければならない状況で、CTOが「既存のもので同じことはできないのか？」と問うのは想像に難くありません。AIの概念実証が失敗しても、少なくともCPUがあればデータベースやVMの実行に活用できます。一方、GPUは、誰かがGPUを使って高速化できる別の方法を見つけない限り、非常に高価な文鎮と化してしまう可能性があります。

特にインテルは、2023 年初頭に Sapphire Rapids Xeon で AMX を発表して以来、このコンセプトに注目してきました。その部分は LLM を考慮して設計されたことはありませんでしたが、新たに発売された Granite Rapids Xeon は確かに LLM を念頭に置いています。

今年初め、Intelは、シングルXeon 6プロセッサでLlama 2 70Bを実行する試作システムを公開しました。このシステムは、82ミリ秒の秒トークンレイテンシ（1秒あたり約12トークン）を実現しています。これは、コア数の増加とそれに伴うAMXエンジンの増加、モデル圧縮のための4ビット量子化、そして最も重要な高速MRDIMMの採用など、いくつかの要因によって実現されました。

Granite Rapids は、8,800MT/s のメモリを12チャネル搭載し、844GB/s のメモリ帯域幅を誇ります。これは、前述の L40S とほぼ同じです。推論はメモリ帯域幅に大きく依存するワークロードであるため、両者のパフォーマンスは実際にはかなり近いものになるはずです。

CPUはメモリ帯域幅の点でローエンドGPUに追いつき始めていますが、数テラバイトの帯域幅を誇るNvidiaのH100やAMDのMI300Xといったハイエンドアクセラレータには依然として及ばない状況です。CPUにとって価格設定も依然として課題です。Intelの6900PシリーズGranite Rapidsの価格は、メモリコストを考慮に入れない状態で11,400ドルから17,800ドルです。

AI対応CPUの柔軟性は、高コストに見合う価値があると考える人もいるでしょう。また、特定のワークロードにおいてGPUが提供する効率性は、より優れた投資となると考える人もいるでしょう。®

CPUのみのAIの厄介な経済性

Table of Contents

AIがGPUと関連付けられるのには理由がある

CPUをまだ諦めないで

Discover More

VMware、ブロックチェーン、より優れたアプリストア、新しいAWSクライアントを発表へ

英国のモバイルネットワークEEは、極めて重要な5G RAN機器の提供にノキアを選んだ。

IBMはRed Hatのパッケージ提供のおかげでソフトウェアポートフォリオをコンテナで出荷している

Table of Contents

AIがGPUと関連付けられるのには理由がある

CPUをまだ諦めないで

Smart Recommendations

Discover More