Computex AIアクセラレーターに関しては、Intelはそれほど競争力がなく、新たに発表されたBattlemageワークステーションカードもその状況を大きく変えるものではありません。しかし、少なくとも価格は安いです。本当に安いです。
AI の目的上、グラフィックスを多用するワークロード向けの、より従来型のワークステーション GPU として位置付けられている 299 ドルの Intel Arc B50 は、ほとんど無視できます。
しかし、x86の巨人であるインテルは、グラフィックスとAI推論アプリケーションの両方に、より高性能(かつ消費電力が大きい)なB60を積極的に採用しています。正式な価格はまだ発表されていませんが、インテルのクライアントグラフィックス担当バイスプレジデント兼ゼネラルマネージャーであるビビアン・リアン氏は、これらのカードがPC全体のコストの約500ドルを占めると予想しています。ただし、オープンマーケットでは、実勢価格はそれよりも少し高くなると予想されます。
理論上、B60 は、現在価格が 1,250 ドルから 2,400 ドルである Nvidia の RTX 4000 Ada と 4500 Ada 世代 GPU の間に位置します。
しかし、AI推論が主な焦点であれば、3月のGTCで発表されたNvidiaのRTX Pro 6000ワークステーションカードのような製品を検討しているかもしれません。このカードは、IntelのB60と比較して、INT8性能が約4.5~5倍、メモリ容量と帯域幅が4倍を誇ります。これらのカードの現在の小売価格は1枚あたり約8,565ドルです。つまり、B60は典型的な推論重視のNvidia GPUの約17分の1の価格で提供されることになります。
両者の比較を簡単にまとめました。参考までにB50も記載しています。
アークプロB50 | アークプロB60 | RTX Pro 6000 | |
---|---|---|---|
メモリ容量 | 16ギガバイト | 24GB | 96GB |
メモリ帯域幅 | 224 GB/秒 | 456 GB/秒 | 1,792 GB/秒 |
INT8 パフォーマンス | 170トップス | 197トップス | 877-1,007 トップ |
FP4パフォーマンス | 該当なし | 該当なし | 1,755~2,015 TFLOPS |
TDP | 70W | 120W~200W | 300W~600W |
価格 | 299ドル | 約500ドル | 約8500ドル |
注: 示されているすべてのパフォーマンス数値は、スパース性が有効になっていない場合の稠密整数/浮動小数点パフォーマンスです。
並行性による競争
ご覧の通り、B60単体ではNvidiaの最新ワークステーションカードには及ばない。しかし、ワークステーション筐体に4枚のB60を詰め込めば、少なくとも同等の性能になる。そして、まさにそれがIntelが顧客に期待していることだ。実際、Intelは最大8枚のB60チップを搭載したシステムを想定している。IntelはこのコンセプトをProject Battlematrixと呼んでいる。
インテルの Project Battlematrix は、安価で使いやすい Arc Pro B60 を最大 8 台まで 1 つのボックスに詰め込み、192GB の vRAM と 1.5 petaOPS のコンピューティング能力を実現すると約束しています - クリックして拡大
8GPUシステムの場合、高密度INT8パフォーマンスで約1.5ペタOPS、vRAM 192GB、総メモリ帯域幅3.6TB/sが期待できます。さらに重要なのは、Lien氏の1枚あたり500ドルという見積もりが実際に実現すると仮定すると、約4,000ドル相当のGPUが必要になることです。たとえ1枚あたり750ドル程度になったとしても、それでもRTX Pro 6000を2枚購入するよりはるかに安価です。
実際、デュアル GPU の Nvidia ワークステーション 1 台の価格よりも安い価格で、8 GPU の Intel システム 2 台を構成できる可能性があります。
ラックと呼んでいるのは、少なくとも米国では、これらの製品を複数台導入する場合、1台のシステムで既に15アンペア回路(1,800W)の限界に達してしまうためです。このような構成では、負荷時にブレーカーが落ちないように、B60のTDPを120Wに近い値に調整する必要があると考えられます。
B60はRTX Pro 6000ワークステーションカード(300W~600W)よりも消費電力が少なく(120W~200W)、電力効率も低いです。これは、Nvidiaの最新チップが4ビットデータ型をネイティブサポートしているのに対し、B60はサポートしていないことを考慮すると、特に顕著です。
RTX Pro 6000 は INT8 では 4.5 ~ 5 倍高速ですが、FP4 では 9 ~ 10 倍近く高速になり、スパース性を活用できれば 18 ~ 20 倍高速になります。
しかし、推論ワークステーションにとっては、これはそれほど大きな問題ではないかもしれません。スパースFP4の4ペタフロップスは印象的ですが、推論ワークロードはパフォーマンスの限界ではなく、メモリ帯域幅のボトルネックになりやすいからです。推論はスパース性からそれほど恩恵を受けません。
推論の事前入力段階、つまりモデルがプロンプトを処理する段階では、コンピューティング能力の増加が役立ちます。ただし、これはレポートの要約などのワークロードや、大量の同時リクエストを処理する必要があるシステムで最も顕著になります。
さらに、B60は4ビットデータ型をネイティブにサポートしていないかもしれませんが、それでも多くの4ビット量子化モデルを実行できます。例えば、GGUF量子化を普及させたLlama.cppは、少なくとも1年前からSycl経由でIntel GPUをサポートしています。重みが低い精度で保存されているからといって、計算負荷の高い活性化関数も同じ精度でなければならないわけではありません。
Intel は B60 を主に推論カードとして販売していますが、B60 も GPU であり、モデルの微調整にも簡単に使用できます。このトピックについては、以前にも詳しく検討しました。
マルチユーザー環境
複数の GPU を 1 つのボックスに収めると、特に複数のユーザーがリソースを共有する可能性があるラボ環境では、展開にいくつかのユニークな機会が生まれます。
GPUリソースを共有する方法は、テンポラルスライシングやリソースパーティショニングなど数多くありますが、それぞれに欠点があります。1台のマシンに8基のGPUが搭載されている場合、8人のユーザーがそれぞれ専用のGPUで独自のワークロードを実行する可能性があります。
Intelは現在、SR-IOVサポートの追加に取り組んでいるとのことです。この技術により、PCIeデバイスを複数の仮想デバイスとして認識できるようになり、GPUリソースの分割や仮想マシンへのパススルーといったプロセスが大幅に簡素化されるはずです。
技術的には、NVIDIAのRTX Proグラフィックカードでも、少なくとも6000シリーズでは可能です。各チップはNVIDIAのマルチインスタンスGPUパーティショニング技術をサポートしており、チップを2つの48GBパーティションまたは4つの24GBパーティションに分割できます。
しかし、その技術をアンロックするには、すでに高額なチップ価格に加えて、Nvidia vGPU ライセンスが必要になる可能性があります。
- NvidiaはDGX Station、Spark PCでGB300スーパーチップをデスクに搭載したいと考えている
- El Reg によるLLM を本番環境に導入するための必須ガイド
- Nvidia、カスタムCPU、ASICへの高速NVLink相互接続を開放
- AMDは中小企業向けにRyzenをベビーEpycのバンドルで提供
ソフトウェアゲームの強化
マルチGPUシステムには、ある程度の妥協が伴います。ソフトウェアが十分に機能していないと、速度やフィードが必ずしも現実世界のパフォーマンスに反映されるとは限りません。
しかし、IntelのXeグラフィックス・アーキテクチャを取り巻くソフトウェアの状況は、この1年間で着実に改善されてきました。ワークロードを複数のGPUで実行することは複雑化を招く可能性がありますが、現時点ではこの問題は十分に理解されています。
IntelはB60プラットフォームのリリースに伴い、ソフトウェアエコシステムのさらなる改善に取り組んでいます。これには、特定のフレームワークを稼働させるために必要なものがすべて揃った、あらかじめベイクされたコンテナイメージの導入も含まれます。私たちの理解では、vLLMは最初に提供されるコンテナ環境の一つとなるでしょうが、近いうちにOllamaやLlama.cpp用のコンテナも登場するかもしれません。
以前に検討したように、このような種類のコンテナ環境を使用すると、さまざまな依存関係やパッケージ マネージャーを調整し、バージョン サポートのバグを整理する必要がなく、この作業を自動化してサンドボックス環境で展開できるため、AI ワークロードと開発環境の展開が大幅に容易になります。
これらのコンテナ環境は、第 3 四半期にカードと並行して展開が開始され、SR-IOV、仮想デスクトップ インフラストラクチャ、およびその他の管理機能は第 4 四半期に展開される予定です。®