NvidiaがローカルAI開発向けの超小型GB10スーパーチップの詳細を発表

Table of Contents

NvidiaがローカルAI開発向けの超小型GB10スーパーチップの詳細を発表

ホット チップ2023 年に、Nvidia のスーパーチップ アーキテクチャは、PCIe を非常に遅く感じさせる高速 NVLink ファブリックを介して CPU を GPU に結合することで、ワークロードを加速する新しいプログラミング モデルを導入しました。

唯一の問題は、データセンターやクラウド以外では、開発者がそれを活用できる方法があまりなかったことです。

Nvidia の Project Digits (現在は DGX Spark としてブランド名を変更) は、GB10 と呼ばれる Nvidia のスーパーチップ アーキテクチャの小型版を一般大衆に (少なくとも 2,999 ドル以上を懐具合に抱えている開発者に) 提供することで、この状況を変えることを目指しています。

今週の Hot Chips では、GB10 の主任建築家である Andi Skende がそのアーキテクチャを詳しく紹介しました。

TSMCの3nm製造技術で製造されたGB10は、MediaTekが設計したCPUタイルとNvidiaが設計したGPUタイルという、2つの異なるコンピューティングダイで構成されています。これら2つのダイは、TSMCの2.5D先進パッケージング技術を用いて接合され、600GB/秒の双方向帯域幅を提供するNvidia独自のNVLinkチップ間インターコネクトを介して接続されています。

GB10を構成するIPの内訳は以下のとおりです。オレンジ色の部分はMediaTekが開発し、緑色の部分はNvidiaが構築した要素を示しています。

GB10を構成するIPの詳細は以下の通りです。オレンジ色の部分はMediaTekが開発し、緑色の部分はNvidiaが構築した要素です。クリックして拡大

CPUダイ(Sダイ)には、20個のArm v9.2コアが2つのクラスターに搭載されており、X925コアとCortex A725コアが同数搭載されています。これらの計算クラスターには、32MBのL3キャッシュ(クラスターあたり16MB)と、GB10の計算エンジン間の通信をスムーズにするために設計された16MBのL4キャッシュが搭載されています。

GB10のグラフィックスダイ(Gダイ)に関する詳細は、残念ながらまだほとんど明らかにされていません。NVIDIAによると、このチップはスパース性を考慮したFP4のピーク性能で約1ペタフロップス、単精度演算(FP32)では約31テラフロップスを実現するとのことです。

つまり、GB10、ひいてはSparkのAI性能は、RTX 5070とほぼ同等ということになります。RTX 5070のメーカー希望小売価格は約550ドルです。しかし、浮動小数点演算性能だけではすべてを物語ることはできません。

まず、GB10は電力効率がはるかに優れています。RTX 5070のTDPは250ワットですが、GB10の定格電力はわずか140ワットです。

GB10は、5070の12GBに対して128GBのVRAMを搭載しています。DGX Sparkが設計されている種類のワークロードには、十分なVRAM容量が不可欠です。FP4精度でも、モデルの重み付けには10億パラメータごとに約500MBのメモリが必要です。

GB10は、上位機種であるGB200やGB300とは異なり、超高速HBMを採用していません。代わりに、消費電力とコストの制約から、NVIDIAは比較的高速な9400MT/sのLPDDR5xメモリを採用しました。

このメモリはCPUダイの256ビットメモリバスと組み合わせられるため、GB10は273GB/秒から301GB/秒の帯域幅を実現します。ちなみに、メモリ帯域幅は推論性能の重要な指標です。メモリが高速であればあるほど、チップはより速くトークンを生成できます。LPDDRを採用するという決定は、NVIDIAがメモリ容量と帯域幅の間で妥協せざるを得なかったことを如実に示しています。 

とはいえ、DGX Sparkはローカルモデルの実行だけにとどまらず、幅広い用途を想定して設計されています。NVIDIAはこの小型AIワークステーションを、ローカル推論に加えて、プロトタイピングやモデルの微調整のための開発プラットフォームとして位置付けています。

以前に検討したように、微調整は、低ランク適応と量子化を用いて計算要件を最小限に抑えた場合でも、特に計算量とメモリを大量に消費するタスクです。このシナリオでは、帯域幅よりも計算量とメモリ容量の方が重要です。

  • 100社以上の企業がAIチップのゴールドラッシュに挑んでいる。生き残るのはほんのわずかだ
  • Nvidia、リアルタイムロボット推論用Jetson Thorキットを宣伝
  • 輸出規制なんてどうでもいい!Nvidiaが中国市場向けにB300の縮小版を計画中と報道
  • HuaweiのラックスケールのブギーマンとNvidiaの最高のものを比較

Nvidia によれば、Spark の 128GB LPDDR5x は、700 億のパラメータモデルを微調整し、最大 2000 億のパラメータで推論を実行するのに十分です。

より多くの容量が必要な場合、GB10 は 200GbE ポートのペアを備えた ConnectX-7 NIC とペアになっており、ワークロードを 2 つの DGX Spark に分散できるため、微調整と推論の機能が実質的に 2 倍になります。

さらに重要なのは、GB10 はデータセンターの同種の製品と同じテクノロジをベースとしているため、小型ワークステーションで開発されたワークロードを本番環境への展開のためにリファクタリングする必要がないことです。®

Discover More