コメントジェンセン・フアンがよく言うように、ムーアの法則は死んだ。そして今月のNvidia GTCで、GPUを販売するこの最高経営責任者は、計算スケーリングの法則が実際にはどれほど根深いものであるかを漏らした。
ステージに立ったフアン氏は、チップ設計会社の次世代Blackwell Ultraプロセッサだけでなく、576基のGPUを搭載した600kWラックスケールシステムを含む、今後2世代のアクセラレーテッド・コンピューティング・プラットフォームに関する驚くべき詳細を明らかにしました。さらに、2028年に登場予定の次世代GPUファミリーがリチャード・ファインマンにちなんで命名されることも明らかになりました。まさか冗談でしょう!
チップメーカーが時折ロードマップをチラ見せするのはそれほど珍しいことではありませんが、これほど多くの情報を一度に得ることは通常ありません。それは、NVIDIAが行き詰まっているからです。同社は一つではなく、複数の障害に直面しています。さらに悪いことに、問題解決に資金を投じる以外に、それらはすべてNVIDIAの手に負えない状況にあります。
これらの課題は、注意深く見守る人にとっては、それほど驚くようなものではないでしょう。分散コンピューティングは常にボトルネックを叩くモグラ叩きゲームであり、AIはまさに究極のモグラ狩りと言えるかもしれません。
ここから全てが消え去る
これらの課題のうち、最初で最も明白なのは、コンピューティングのスケーリングに関するものです。
近年、プロセス技術の進歩は停滞している。まだ調整できる部分はあるが、その調整はますます困難になっている。
こうした制約に直面したNVIDIAの戦略はシンプルです。各コンピューティングノードのシリコン容量を可能な限りスケールアップすることです。現在、NVIDIAの最も高密度なシステム(ラック)は、高速1.8TB/秒のNVLinkファブリックを使用して、72基のGPUを単一のコンピューティングドメインに統合しています。そして、これらのラックを8基以上InfiniBandまたはイーサネットで接続することで、必要なコンピューティング容量とメモリ容量を実現します。
GTCで、NVIDIAはラックあたりGPUを144基、最終的には576基にまで増強する意向を明らかにしました。しかし、スケールアップはラック数にとどまらず、チップパッケージにも広がっています。
これは、1年前にNVIDIAがBlackwellアクセラレータを発表したことで明らかになりました。このチップはHopperと比べて5倍の性能向上を誇り、一見素晴らしいように聞こえましたが、実際にはダイ数が2倍になり、新しい4ビットデータ型と500ワットの電力増加が必要になることに気づきました。
現実には、FP16 に正規化すると、Nvidia の最上位スペックの Blackwell ダイは、1,250 密度 teraFLOPS の GH100 と 989 の GH100 の約 1.25 倍しか速くなく、たまたま 2 つしかなかったのです。
NvidiaのCEO、ジェンスン・フアン氏は、2027年までにRubin Ultra NVL576の発売によりラック容量が600kWに急増すると予想している。(クリックして拡大)
NVIDIAが次世代チップにどのようなプロセス技術を採用する予定かはまだ不明ですが、Rubin Ultraもこの傾向を継続し、レチクル制限ダイを2つから4つに増やすと分かっています。効率が約20%向上しても、Huang氏はTSMC 2nmプロセスから脱却できると予想しており、それでも依然としてホットパッケージになるとのことです。
コンピューティング能力だけでなく、メモリも重要です。鋭い観察眼を持つ方は、RubinとRubin Ultraの間で容量と帯域幅がかなり向上していることに気付いたかもしれません。1パッケージあたり288GBから1TBに増加しています。この増加の約半分は、メモリモジュールの高速化と大容量化によるものですが、残りの半分はメモリ専用シリコンの量がBlackwellとRubinの8モジュールからRubin Ultraの16モジュールへと倍増したことによるものです。
容量の増加により、NVIDIAはより多くのモデルパラメータ(FP4では約2兆個、GPUあたり5000億個)を単一パッケージに詰め込むことができるようになります。これは、ソケットではなく個々のダイをカウントするためです。HBM4eは、HBM3eと比較してメモリ帯域幅を実質的に2倍にすることを目指しています。帯域幅は、現在のBlackwellダイあたり約4TB/秒から、Rubin Ultraでは約8TB/秒に増加すると予想されています。
残念ながら、プロセス技術に大きな進歩がない限り、将来の Nvidia GPU パッケージにはさらに多くのシリコンが搭載される可能性があります。
幸いなことに、プロセスの進化だけがコンピューティングやメモリのスケーリング方法ではありません。一般的に、例えば16ビット精度から8ビット精度に落とすと、スループットは実質的に2倍になり、特定のモデルのメモリ要件も半分になります。問題は、NVIDIAがパフォーマンス向上のために落とすビット数が不足していることです。HopperからBlackwellまで、NVIDIAは4ビットを落とし、シリコン容量を2倍にすることで、浮動小数点演算性能を5倍にしたと主張しています。
しかし、4ビット精度を下回ると、LLM推論は非常に困難になり、パープレキシティスコアが急激に上昇します。とはいえ、精度を維持しながら1.58ビットという超低精度量子化に関する興味深い研究が行われています。
精度を下げることだけがFLOPSを向上させる唯一の方法ではありません。AIワークロードには必要のない高精度のデータ型に割り当てるダイ面積を減らすこともできます。
Blackwell Ultraでこの現象を目の当たりにしました。Nvidiaのアクセラレーテッドコンピューティング事業部門担当副社長、イアン・バック氏はインタビューで、4ビットFLOPSを50%向上させる代わりに、チップの倍精度(FP64)テンソルコアの性能を実際に低下させたと語っています。
これが FP64 が Nvidia で廃止に向かっている兆候であるかどうかはまだ分かりませんが、倍精度の性能を本当に重視するのであれば、いずれにしても AMD の GPU と APU を最優先に検討すべきでしょう。
いずれにせよ、NVIDIAの進むべき道は明確だ。同社のコンピューティングプラットフォームは今後、ますます大型化し、高密度化し、発熱量も増加し、消費電力も増大していくだろう。先週の記者会見で、カロリー不足に悩むHuang氏が述べたように、ラックの実質的な限界は、どれだけの電力を供給できるかということだ。
「データセンターは現在250メガワットです。これはラック1台あたりの上限値のようなもので、残りは細かい点に過ぎないと思います」とフアン氏は述べた。「データセンターが1ギガワットだとしたら、ラック1台あたり1ギガワットというのは妥当な上限値だと思います。」
電力問題から逃れることはできない
当然のことながら、600kW ラックはデータセンター運営者にとって大きな頭痛の種となります。
念のため言っておきますが、メガワット級の超高密度コンピューティングを冷却するのは、今に始まったことではありません。Cray、Eviden、Lenovoの担当者たちは、何年も前からこの問題を解決してきました。変わったのは、私たちが年間数台規模の小規模コンピューティングクラスターを話題にしているわけではないということです。数十台規模のクラスターが対象となっており、中には20万台のHopper GPUをLinpackで接続すれば利益が出るとすれば、Top500の最強スーパーコンピューターの座を奪えるほどの大規模なクラスターもあります。
この規模になると、高度に特殊化された少量生産の熱管理・電力供給システムでは到底対応できません。残念ながら、データセンターベンダー(数百万ドルもするNVL72ラックを動作させるために必要な、それほど魅力的ではない部品を販売しているベンダーです)は、ようやく需要に追いつきつつあるところです。
これまで発表されたBlackwellの導入事例の多くが、空冷式のHGX B200を採用しており、Huang氏が常に宣伝しているNVL72を採用していないのは、このためではないかと考えられます。これらの8GPU HGXシステムは、既存の多くのH100環境に導入可能です。NVIDIAは長年30~40kWのラックを運用してきたため、60kWへの飛躍はそれほど無理な話ではありません。むしろ無理な話ですが、ラックあたり2~3台のサーバーに減らすことも依然として選択肢として残っています。
ここで黄氏が繰り返し語っている「AI工場」が活躍することになる。
NVL72は、DCバスバー、パワースレッド、そして前面ネットワークなど、ハイパースケーラーに強く影響を受けたラックスケール設計です。120kWの液冷式コンピューティング能力を持つNVL72を既存の施設に複数導入するのは、たちまち困難を極めます。そして、2027年後半にNVIDIAの600kW級モンスターラックがデビューすれば、状況はさらに悪化するでしょう。
ここで、黄氏が繰り返し語っている「AI 工場」が登場する。AI の電力と熱の需要に対応するために、シュナイダーエレクトリックなどのパートナーと共同で設計された専用のデータセンターだ。
そして驚いたことに、今後 3 年間の GPU ロードマップの詳細を発表した 1 週間後、シュナイダー スミスは、GPU をサポートするために必要なすべての電源および冷却キットの生産を増強するために、米国で 7 億ドルの拡張を行うことを発表しました。
もちろん、これらの超高密度システムに電力を供給し、冷却するために必要なインフラを整備することだけが問題ではありません。そもそもデータセンターに電力を供給することも問題であり、これもまたNVIDIAの手に負えない部分です。
Meta、Oracle、Microsoft、あるいは他の企業がAI関連の新たな電力供給拠点を発表するたびに、魅力的な電力購入契約が締結されるのが常だ。Metaがバイユーに建設する巨大DCは、2.2GWのガス火力発電所と同時に発表された。持続可能性とカーボンニュートラルへの取り組みは、もはや過去のものとなった。
原子力の復活を願う一方で、最も楽観的な予測でも2030年代に導入されるとすれば、小型モジュール炉を真剣に受け止めるのは難しい。
- NvidiaのAI推論用「オペレーティングシステム」Dynamoを詳しく見る
- マイクロソフトがデータセンターのリース契約から撤退するのは(おそらく)AIバブルの崩壊の兆候ではない
- シュナイダーエレクトリック、AIデータセンターの需要急増を受け米国事業に7億ドルを投入
- NvidiaのVera Rubin CPU、GPUロードマップは、600kWラックの超ホットホットの道筋を示している
リーダーに従う
誤解のないよう明確に述べておくと、これらの障害はNvidiaに限ったものではありません。AMD、Intel、そしてNvidiaの市場シェアを奪い合っている他のすべてのクラウドプロバイダーやチップ設計会社も、近いうちに同じ課題に直面することになるはずです。ただ、Nvidiaはたまたま最初にこれらの課題に直面した企業の一つなのです。
これには確かに欠点もありますが、Nvidia は将来のデータセンターの電力と熱の設計の方向性を決める上で、ある意味ユニークな立場に立つことになります。
先ほども述べたように、Huang が今後 3 世代の GPU テクノロジを公開し、第 4 世代を予告したのは、最終的にそれらのテクノロジが登場したときに、インフラストラクチャ パートナーがサポートできるように準備するためです。
「私がエヌビディアの今後3、4年のロードマップを世界に伝えたおかげで、今では誰もが計画を立てられるようになった」とフアン氏は語った。
一方で、こうした取り組みは競合するチップメーカーにとっての道を開くことにもなります。NVIDIAが120kW、あるいは600kWのラックを設計し、コロケーションプロバイダーやクラウド事業者がそれをサポートする意思を示した場合、AMDやIntelは、顧客がどこに設置するかを心配することなく、自社のラックスケールプラットフォームに同等のコンピューティング能力を搭載できるようになります。®