ここ数年、米国政府は米国のチップ設計企業が中国でAI製品を売り込むことを徐々に困難にしてきました。しかし、不可能ではありません。
当初、この規則は複数のGPUを接続するために使用される高速インターコネクトに上限を設けていました。2023年までに、この基準は引き下げられ、プロセッサの性能に上限が設けられました。
規制が厳しくなるたびに、Nvidia、AMD、その他の企業はその課題に立ち向かい、主力製品の制裁に準拠したバージョンをひっそりと発表してきた。
4月、米国政府が再びメモリとI/O帯域幅を制限する措置を講じたため、NvidiaのH20やAMDのMI308など、これらのチップの多くは中国での販売が事実上禁止された。
しかし、Nvidia は中国市場に向けて突き進み続けています。
米国商務省の規制下で宙に浮いているチップメーカーの最新 GPU は、RTX Pro 6000 シリーズのサーバーチップをベースにしたものになると報じられています。
3 月の GTC で発表されたこのパーツは、4 ビット浮動小数点精度で最大 4 ペタフロップスのスパース性能と、1.6TB/秒のメモリ帯域幅を実現する 96GB の GDDR7 を誇ります。
中国仕様版(報道によるとRTX Pro 6000D)では、このパフォーマンスは大幅に削減される必要がある。このチップに関する詳細は不明だが、米国の輸出規制の規定を踏まえると、制裁対象となるチップはすべて同じ手順を踏まなければならないことになる。
新しい製品設計を決定し、米国政府の承認を得るまでは、中国の500億ドル規模のデータセンター市場から事実上締め出されることになる。
一方、NVIDIAは、この課題を甘く見ているわけではない。「当社はまだ限られた選択肢を評価しているところです。新しい製品設計を決定し、米国政府の承認を得るまでは、事実上、500億ドル規模の中国データセンター市場から締め出されることになります」と、NVIDIAの広報担当者はThe Register紙に語った。
2025年に制裁に準拠したAIアクセラレーターを構築
2025年に制裁措置に準拠したアクセラレータを開発したいとお考えですか?まず第一に、高帯域幅メモリの使用は避けるべきです。HBM(Human Memory Base)に限った話ではありません。GDDR7やLPDDR5xメモリをチップに搭載しすぎると、性能が限界を超えてしまう可能性があります。
なぜサムおじさんは突然、メモリの速度を気にするようになったのでしょうか?AI推論、つまり実際にモデルを使用する行為においては、メモリ帯域幅がボトルネックになることが多いのです。
これは、H20、MI308、ガウディの中国への数十億ドルに及ぶ輸送をすべて阻止した要件です。
Nvidiaは最近の規制書類の中で、「H20集積回路およびH20のメモリ帯域幅、相互接続帯域幅、またはそれらの組み合わせを実現するその他の回路」は現在、米国の輸出規制の対象となっていると説明した。
ここが少し曖昧なところです。これまでの輸出規制とは異なり、商務省産業安全保障局(BIS)は、I/Oやメモリ帯域幅がどの程度過剰になるかについて具体的なガイドラインを出していません。
しかし、フィナンシャル・タイムズが確認した、インテルが中国の顧客に送った4月の電子メールでは、これらの制限がDRAM帯域幅1.4 TB/秒、I/O帯域幅1.1 TB/秒、または合計帯域幅1.7 TB/秒に設定されていたと報じられています。
これらの制限により、HBMを採用した既存のアクセラレータはほぼすべて販売できなくなりました。HBM自体、米国の輸出担当当局と既に不安定な関係にあります。NVIDIAのCEO、ジェンスン・フアン氏が最近、中国におけるHopperベースのチップの生産終了を表明したのも、おそらくこのためでしょう。これらのチップはHBMのみを念頭に置いて設計されていたのです。
NvidiaのBlackwellベースのRTX ProグラフィックカードはHBMを採用しておらず、代わりにコンシューマー向けGDDR7メモリを採用しています。サーバー版チップは最大96GBのメモリと1.6TB/sの帯域幅を備えています。
Nvidiaは、報告されている制限値以下にするために200GB/秒の帯域幅を削減する必要がありますが、それでも十分な帯域幅です。特に、AlibabaのQwen3-235BやDeepSeekのV3、R1といった、Mixture of Experts(MoE)モデルの導入を計画している場合はなおさらです。(その理由を知りたい方は、MoEアーキテクチャに関する詳細な分析記事をご覧ください。)
RTX Pro 6000 の 16 レーンの PCIe 5.0 は双方向帯域幅が 128GB/秒で上限となるため、I/O は問題にならないようです。
大量の砂が無駄になった
メモリビットはこれで完了です。次に、大量のシリコンが必要になります。ほとんどは使用しませんが、チップが大きければ大きいほど、パフォーマンスが向上します。
RTX Pro 6000の場合、ダイ面積は750mm2であることが分かっています。この情報と4ビット幅を用いることで、現在の要件(2023年以降変更なし)に基づいて中国で販売するために、NVIDIAがどれだけの性能を削減する必要があるかを計算できます。
戦略国際問題研究所(CSIS)のこのグラフは、トレードオフを分かりやすく示しています。縦軸はTPP、つまりチップの性能を示しています。一方、横軸はシリコン1平方ミリメートルあたりの性能、つまり性能密度(PD)を示しています。理想的には、TPPとPDの両方が高いチップが望ましいのですが、米国の輸出規制のため、米国の輸出規制を回避できる単一のチップを開発するための最適な条件は、実際にはその中間にあるのです。
現代のAIアクセラレータのスイートスポットは、2400 TPPと3.2 PDの間です。画像提供:CSIS - クリックして拡大
具体的には、TPP 2,400未満、パフォーマンス密度(PD) 3.2未満を目指しましょう。
TPP と PD を計算するには、次の 3 つの変数を知る必要があります。
- 宣伝されているteraOPSまたはteraFLOPS
- OPSまたはFLOPSの「ビット幅」または精度
- チップの総ダイ面積(mm2)
TPP を求めるには、teraOPS にビット幅 (精度) を掛けます。一方、PD は TPP をチップのダイ面積で割ることで求められます。
RTX Pro 6000の場合、計算は次のようになります。
- 4000 teraOPS x 4ビット幅 = 16,000 TPP
- 16,000 TPP / 750mm2のダイ面積 = 21.3 PD
当然ながら、米国税関の検査では通用しないので、制限内に収める必要があります。RTX Pro 6000のダイ面積は750mm²、ビット幅は4であることが分かっているので、6000Dの理論上の最大性能はXを解くだけで簡単に求められます。
- 3.1 PD * 750mm2 = 2,325 TPP
- 2,325 TPP / 4ビット = 581 teraOPS
言い換えれば、RTX Pro 6000を中国で販売するために、Nvidiaはパフォーマンスを約85パーセント削減する必要があることになります。
保証なし
もちろん、すべてを正しく行ったとしても、次回の規則変更時に数十億ドル相当の在庫と売上を減損することになる可能性もあります。
最新のAIパフォーマンス上限が発表された後、Nvidiaは、2026年度第1四半期にH20在庫、購入コミットメント、および関連する準備金に関連して55億ドルの費用を負担すると警告した。
総打撃は、MI308アクセラレータに8億ドルの費用を計上したAMDの場合と同様に、その数倍になる可能性があるが、更新された貿易制限により、2025年には15億ドルの収益を失うことも予想されている。
- オラクルの400億ドル規模のNVIDIAハードウェア買収は、OpenAIのテキサス州アビリーンDCにとって手に負えないほどの規模になるかもしれない
- AI脳を常に100%使うのは、モデルを実行する最も効率的な方法ではないことが判明
- Nvidiaはx86をまだ使い続け、GPUの監視にIntel Xeonを採用
- エヌビディアCEOジェンセン・フアン氏、米国のGPU輸出禁止は「まさに間違い」であり「失敗」だと批判
米国の半導体企業は、こうした変化に必ずしも満足していない。先週のComputexで、NVIDIAのCEO、ジェンスン・フアン氏は、この機会を利用して、米国政府が技術の独占に固執していることを「まさに間違っている」「失敗だ」と非難した。
黄氏は、株主の利益を奪うだけでなく、中国が最先端技術にアクセスできないことはAIの進歩を妨げ、最終的には人類に害を及ぼすことになると主張した。
黄氏の主張の一部は、世界のAI研究者の約半数が中国に集中しているという事実に根ざしている。彼らがNVIDIAのハードウェアにアクセスできないようにすれば、事実上、世界の他の国々は彼らのイノベーションから切り離されてしまう、と彼は主張した。
収穫逓減
すべてを正しく行い、米国政府のライセンス要件の下で宙ぶらりんの状態であったとしても、こうしたパフォーマンス上限は、中国製のアクセラレータが追い抜くのは時間の問題であることを意味しています。
私たちの姉妹サイトであるThe Next Platformが最近論じたように、HuaweiのAscendシリーズのAIアクセラレータはすでに優れたパフォーマンスを提供しており、Nvidiaが中国でH20アクセラレータの販売を禁止されたことで、より高いメモリ帯域幅による利点はすべて無効になった。
米国のチップ設計者は量やソフトウェアの互換性で競争できるかもしれないが、最終的には中国の AI サプライ チェーンが追いつくだろう。®