NvidiaのMLPerf提出によると、B200はH100の最大2.2倍のトレーニングパフォーマンスを提供する。

Table of Contents

NvidiaのMLPerf提出によると、B200はH100の最大2.2倍のトレーニングパフォーマンスを提供する。

分析Nvidia は、実際のトレーニング ワークロードで、今後発売される Blackwell アクセラレータが定評のある H100 と比べてどの程度優れているかを初めて公開し、最大 2.2 倍のパフォーマンスを実現できると主張しました。

今週のMLPerf結果の一部として公開されたベンチマークは、現段階でBlackwellから私たちが期待していたものと一致するものでした。NVIDIAのNyxスーパーコンピュータで使用されているDGX B200システムは、FP8、FP16、BF16、TF32の精度において、前世代のH100システムと比較して約2.27倍のピーク浮動小数点性能を誇ります。

そして、これは結果からも裏付けられています。B200はH100と比較して、Llama 2 70Bの微調整時に2.2倍のパフォーマンスを達成し、GPT-3 175Bの事前学習時には2倍のパフォーマンスを達成しました。

しかし、ここで重要なのは単なるFLOPSだけではありません。Nvidiaによると、Blackwellの大幅に高いメモリ帯域幅(フラッグシップモデルでは最大8TBps)も影響しているとのこと。

「より高帯域幅のHBM3eメモリを活用することで、GPUあたりのパフォーマンスを損なうことなく、わずか64個のBlackwell GPUでGPT-3 LLMベンチマークを実行できました。Hopperを使用した同じベンチマークでは、同じパフォーマンスを達成するのに256個のGPUが必要でした」と、この高速化のチャンピオンはブログ投稿で説明しています。

このベンチマークは8ノードに64基のGPUを搭載したシステムで実施されましたが、より大規模なシステムの1つのパーティションのみが使用されたのか、それともNyxがスケールではなくパフォーマンスの点で「スーパー」なのかは不明です。実際、システムに関する詳細情報は非常に乏しいです。しかし、画像や過去のDGX構成から得た情報から判断すると、ラックあたり3基、あるいは4基の8GPUノードで構成されるモジュラーシステムであり、ラック数と相互接続帯域幅が2つの大きな疑問点となっています。

ニュクスクラスター

ニュクスクラスター – クリックして拡大

The Register はNyx についての説明を求めて Nvidia に連絡を取りました。返答があればお知らせします。

Nvidia が最初のトレーニング提出のベースとして B200 を使用しているという事実は、まだかなりのパフォーマンスが期待できることを示しています。

理論上、B200はスパースFP8演算で9ペタFLOPSの性能を発揮し、消費電力と発熱量は1キロワットとされています。一方、NVIDIAのフラッグシップモデルであるGB200に搭載されている1.2kWのGPUは、同じ精度でそれぞれ10ペタFLOPSの性能を発揮します。

しかし、GB200システムはピーク性能が高いだけではありません。GPUドメインも大幅に拡張されています。従来、DGXシステムは高速NVLinkスイッチファブリックで相互接続された8基のGPUを搭載し、ノード間の複数のInfiniBandリンクを使用することで、さらなる拡張性を実現していました。

Nvidia は Blackwell により、NVL72 リファレンス デザインで NVLink ドメインを 8 個から 72 個のアクセラレータに拡張しました。

トレーニング時間の点で実際にどれほどの違いが出るかは分かりませんが、MLCommonsが次回のトレーニング結果をリリースする頃には、パフォーマンスが大幅に向上している可能性があります。トレーニング時間はデータ移動によって制限されることが多く、NVLinkはInfiniBandよりも数倍高速であることを考えると、この変更によってある程度のメリットが得られると期待しています。

  • 自宅でプライバシーを保ちながらLLMを微調整するために必要なことすべて
  • ダウ平均株価がインテルをNVIDIAに切り替え、AIの激しい変動から逃れられる指数はなくなる
  • ジェンセン・フアンはSKハイニックスに対し、NVIDIAに12層HBM4チップを提供するよう要請した。
  • 富士通とAMD、Monaka CPUとInstinct GPUの組み合わせに向けた準備を進める

次に見るトレーニングの提出が依然として Nvidia の B200 ベースのシステムからのものであるとしても、ソフトウェアとネットワーク インフラストラクチャの改善によってさらに改善が促進される可能性があります。

次世代のConnectX-8 SuperNICは、InfiniBand帯域幅を2倍の800Gbpsに拡張する予定です。一方、HopperがMLPerfランキングに初登場して以来、ソフトウェアの最適化やその他のアップグレードにより、パフォーマンスが大幅に向上しています。

Blackwellのトレーニング結果は、同社が同コンピューティングプラットフォーム向けMLPerf推論ベンチマークを初めて公開してからわずか数か月後に発表されました。これらのテストにおいて、NvidiaはHopperの4倍の性能向上を達成しました。

Blackwellに加えて、NVIDIAは11,616基のHopper GPUを用いたGPT-3 175Bベンチマークの大規模学習結果も公開しました。これは非常に重要な成果です。モデル開発をサポートするために、複数のクラスターが複数回デプロイされることは珍しくありません。®

Discover More