HuaweiのラックスケールのブギーマンとNvidiaの最高のものを比較

Table of Contents

HuaweiのラックスケールのブギーマンとNvidiaの最高のものを比較

分析Nvidia は中国への H20 GPU の出荷を再開する許可を得ているが、チップは豊富にあるかもしれないが、この地域のビットバーン事業者は今や、はるかに高性能な代替品を利用できるようになっている。

最も有望視されているのは、今週上海で開催された世界人工知能会議(WAIC)で発表されたファーウェイのCloudMatrix 384ラックシステムだ。

このシステムは、中国のIT大手Ascend社の最新ニューラル・プロセッシング・ユニット(NPU)であるP910Cを搭載しています。もし入手できれば、このチップはH20の2倍以上の浮動小数点演算性能と、低速ながらもより多くのメモリを搭載できると謳っています。

しかし、HuaweiのCloudMatrixシステムは、制裁措置に準拠したNVIDIAのシリコンよりもはるかに高い性能を狙っていることは明らかです。NVIDIAのBlackwellベースのGB200 NVL72ラックシステムと比較すると、Huaweiの最高クラスのハードウェアは、16ビット浮動小数点演算性能が約60%向上し、メモリ帯域幅はほぼ2倍、HBMは3.5倍強を誇ります。

欧米のチップテクノロジーから事実上ブラックリスト入りした企業が、どのようにしてそれを実現したのか?答えは簡単だ。CloudMatrix 384は巨大で、NvidiaのNVL72の5倍以上のアクセラレータを搭載し、16倍の設置面積を占める。

Ascend 910Cを解剖する

CloudMatrix 384の心臓部は、HuaweiのAscend 910C NPUです。これらのアクセラレータはそれぞれ、高速チップ間インターコネクトで接続された2つのコンピューティングダイを搭載しており、双方向に540GB/秒または270GB/秒の速度でデータを転送できます。

これらのダイを組み合わせることで、752テラフロップスの高密度FP16/BF16性能を発揮します。この演算処理には、合計128GBの高帯域幅メモリを8スタック搭載し、各演算ダイに1.6TB/秒のメモリ帯域幅を供給し、合計3.2TB/秒の性能を実現します。

Huaweiの最新NPU「Ascend 910C」の詳細をご紹介します。

Huaweiの最新NPU「Ascend 910C」の詳細は以下の通りです。クリックして拡大

AI チップの開発を追跡している方なら、2025 年にこれが競争力があるとは到底言えないことがお分かりでしょう。比較すると、Nvidia のほぼ 2 年前の H200 は、FP16 での浮動小数点パフォーマンスが約 83 teraFLOPS 高く、HBM が 13GB 多く、メモリ帯域幅が 1.6TB/s 多いという特徴があります。

中国ではH200を(少なくとも合法的に)購入することは不可能なので、より適切な比較対象はNvidiaが近日中に出荷を再開する予定のH20でしょう。H20はメモリ帯域幅では依然としてわずかに優位に立っていますが、Ascend 910CはHBM(メモリ容量)が大きく(128GB vs. 96GB)、浮動小数点演算性能も2倍以上です。

P910C は FP8 をサポートしていないかもしれませんが、Huawei は、少なくとも推論に関する限り、INT8 はほぼ同等に優れていると主張しています。

個別に見ると、P910C は、たとえ GPU 大手の最新の Blackwell チップには及ばないとしても、Nvidia の中国仕様アクセラレータに代わる魅力的な選択肢となります。

NPUは力を合わせて強くなる

しかし、最先端の大規模言語モデルのほとんどは、単一のチップ上で学習または実行されていません。それを実現するには、計算メモリや帯域幅が単純に不足しているからです。そのため、チップ単体の性能よりも、いかに効率的にスケールアップ・スケールアウトできるかが重要になります。そして、まさにそれがHuaweiが最新のNPUを設計した目的です。

Huawei の Ascend 910C は、NVLink のようなスケールアップ相互接続、つまり統合バス (UB) を備えており、これにより Huawei は、Nvidia が HGX および NVL72 サーバーおよびラック システムで行っているのと同様に、複数のアクセラレータを 1 つの巨大なアクセラレータにまとめることができます。

各 P910C アクセラレータには 14 個の 28GB/秒 UB リンク (コンピューティング ダイあたり 7 個) が搭載されており、各ノードに組み込まれた 7 個の UB スイッチ ASIC に接続して、ノードあたり 8 個の NPU と 4 個の Kunpeng CPU を備えた完全にノンブロッキングなオールツーオール メッシュを形成します。

NvidiaのH20やB200ボックスとは異なり、HuaweiのUBスイッチには、2層目のUBスパインスイッチに接続するための予備ポートが多数搭載されています。これにより、Huaweiはボックスあたり8基のNPUからラックあたり32基、あるいは「スーパーノード」あたり384基まで拡張可能となり、CloudMatrix 384という名称が付けられました。

この図は、CloudMatrixの384個のアクセラレータが1つの巨大なサーバーのように動作する様子を示しています。

この図は、CloudMatrix の 384 個のアクセラレータが 1 つの巨大なサーバーのように動作する様子を示しています - クリックして拡大

ラック間比較で見ると、NVIDIAのGB200 NVL72システムは、FP16/BF16で7.5倍以上高速で、メモリ帯域幅は5.6倍、メモリ容量は3.4倍です。しかし、NVIDIAは最大72基のGPUを搭載したコンピューティングドメインしかサポートしておらず、これはHuaweiの5分の1にも満たない数です。だからこそ、中国のIT大手は欧米のライバル企業よりもシステムレベルの性能が優れていると謳えるのです。

ご想像のとおり、ラックあたりわずか32基のNPUを搭載したCloudMatrix 384は、NVIDIAのNVL72よりもはるかに大型です。Huawei最大のAIハードウェアは、コンピューティング用に12基、ネットワーク用に4基、合計16基のラックで構成されています。

技術的には、Nvidia の NVLink スイッチ技術は最大 576 個の GPU を搭載したスケールアップ ネットワークをサポートできますが、そのようなシステムを実際に目にしたことはありません。

384基以上のNPUを必要とする導入向けに、HuaweiのCloudMatrixはアクセラレータ1基あたり400Gbpsのスケールアウトネットワークも備えています。同社によれば、これにより最大165,000基のNPUを搭載したクラスタのトレーニングが可能になるとのことです。

推論性能

少なくとも推論に関しては、これらの大規模コンピューティング ファブリックは、特に最近中国から大量に登場している大規模な専門家の混合 (MoE) モデルに関しては、いくつかの利点があります。

チップの数が増えると、オペレーターはテンソル、データ、エキスパート並列処理などの技術をより有効に活用して推論スループットを向上させ、トークンあたりの総コストを削減できるようになります。

CloudMatrix 384の場合、DeepSeek R1のようなエキスパート混合モデルは、各NPUダイが単一のエキスパートをホストするように構成できると、Huaweiは先月公開された論文で説明している。

これを実現するために、ファーウェイはCloudMatrix-Inferと呼ばれるLLM推論サービスプラットフォームを開発しました。このプラットフォームは、プリフィル、デコード、キャッシュを分離します。「既存のKVキャッシュ中心のアーキテクチャとは異なり、この設計はUBネットワークを介してキャッシュされたデータへの高帯域幅で均一なアクセスを可能にし、データの局所性制約を軽減し、タスクスケジューリングを簡素化し、キャッシュ効率を向上させます」と研究者らは述べています。

もしこれらが聞き覚えのある話だとしたら、それは Nvidia が GTC で Dynamo と呼ばれる同様の GPU システムを発表したからです。これは 3 月に私たちが詳しく調べたものです。

Huawei は DeepSeek-R1 でのテストで、CloudMatrix-Infer のパフォーマンスが劇的に向上し、単一の NPU で 1 秒あたり 6,688 個の入力トークンを処理しながら、1 秒あたり 1,943 個のトークンを生成できることを示しました。

信じられないかもしれませんが、総スループットはバッチサイズ96で得られたことを指摘しておく価値があります。個々のパフォーマンスは出力トークンあたり50ミリ秒、つまり1秒あたり20トークン程度でした。個々のパフォーマンスを1秒あたり約66トークンまで押し上げると、R1のような思考モデルにとっては顕著な違いが出る可能性がありますが、バッチサイズ8でNPUの全体的なスループットは1秒あたり538トークンに低下します。

理想的な条件下では、Huaweiは1テラFLOPSあたり4.5トークン/秒のプロンプト処理効率を達成したと発表しており、これは1テラFLOPSあたり3.96トークン/秒のNVIDIA H800をわずかに上回る結果となりました。Huaweiはデコードフェーズでも同様の性能を示し、ラックシステムはNVIDIA H800に対して約10%のリードを奪いました。ただし、ベンダーのこうした主張は鵜呑みにしないでください。推論性能はワークロードに大きく依存します。

電力、密度、コスト

テラフロップスあたりのトークン/秒はシステム全体の効率性についてある程度の洞察を与えてくれますが、実際には、システムによって生成されるトークンの価格の方がより重要な指標です。これは通常、1ワットあたり1ドルあたりのトークン数で測定されます。

したがって、CloudMatrix 384 の規模の大きさにより、Nvidia のはるかに強力な Blackwell システムのパフォーマンスに匹敵し、さらにはそれを凌駕することが可能ですが、導入と運用のコストが高くなると、それはあまり問題になりません。

Huawei の CloudMatrix システムの公式の電力定格を正確に把握することは困難ですが、SemiAnalysis は、システム全体で約 600 キロワット程度の電力を消費する可能性があると推測しています。これは、GB200 NVL72 の約 120kW と比較したものです。

これらの推定が正確であると仮定すると、Nvidia の NVL72 は計算密度が数倍高くなるだけでなく、ワットあたり 1,500 ギガ FLOPS となり、Huawei のワットあたり 460 ギガ FLOPS と比べて 3 倍以上の電力効率になります。

安価な電力へのアクセスは西側諸国では大きなボトルネックとなるかもしれないが、中国では必ずしもそれほど大きな問題ではない。ここ数年、北京は石炭火力発電所への依存を相殺するため、国営電力網に積極的に投資し、多数の太陽光発電所や原子炉を建設してきた。

  • ケイデンスが中国輸出違反で罰金を科せられ、税務当局が1億4000万ドルの罰金を負担
  • 10億ドル相当のNVIDIAチップがトラックから落ちて中国に流れ着いたと報道
  • 共和党員、トランプ政権の中国へのGPU販売再開決定を批判
  • AMDはNvidiaに加わり、中国への低性能AIチップの販売を再開する許可を得た

より大きな問題はインフラコストかもしれません。HuaweiのCloudMatrix 384の小売価格は約820万ドルと報じられています。NvidiaのNVL72ラックシステムは、1台あたり約350万ドルと推定されています。

しかし、もしあなたが中国のモデル開発者なら、NVIDIAのNVLラックは検討対象にすらなりません。米国によるAIアクセラレータの輸出規制のおかげで、Huaweiはラックスケール市場でほとんど、あるいは全く競合相手がいません。唯一の大きなボトルネックは、中国のファウンドリ大手であるSMICがどれだけのP910Cを生産できるかということかもしれません。 

米国の議員たちは、SMICにはこれほど複雑なチップを量産する能力が欠けていると依然として確信している。しかし、業界の専門家は数年前、SMICには7nm以下のプロセスノードを製造するのに必要な技術が欠けていると考えていた。しかし、実際にはそうではなかったことが判明した。

ファーウェイがCloudMatrixシステムをどの程度の量産が可能かはまだ不明ですが、その間、NVIDIAのCEOであるジェンスン・フアン氏は、中国のデータセンターに処理できる限り多くのH20チップを搭載することに意欲を見せています。報道によると、NVIDIAは中国顧客の旺盛な需要に応えるため、TSMCにさらに30万個のH20チップを発注したとのことです。 

The RegisterはHuaweiにコメントを求めたが、記事掲載時点では返答はなかった。®

Discover More