NvidiaがGPUクラスターの速度低下問題をいかに克服しているか

Table of Contents

NvidiaがGPUクラスターの速度低下問題をいかに克服しているか

GTC大規模なディープラーニングモデルをトレーニングしていて、より高速にトレーニングしたい場合は、GPUをもっと追加すればいいのではないでしょうか?確かに、それはしばらくは有効ですが、サーバークラスターにGPUを追加することで期待できる比例パフォーマンスには限界があります。

「トレーニング時間を短縮するための主な課題は、データセンター内のGPUの数が増えると、パフォーマンスの向上が低下し始めることです」と、今週開催されたGPU大手のNVIDIAのバーチャルGTC 2022イベントで同社のデータセンターコンピューティング担当ディレクター、パレシュ・カリヤ氏は述べた。

Nvidia は、GTC で発表された、今後発売予定の H100 データ センター GPU と関連ソフトウェアおよび相互接続テクノロジにより、大規模 GPU クラスターが直面する、いわゆるスケーリング問題を解決したと主張しています。

これが重要なのは、世界最大手のインターネット企業が使用する人気の AI アプリケーション用の大規模な、いわゆるトランスフォーマー モデルが巨大化しており、メガトロン-チューリング会話型 AI モデルの 5,300 億のパラメータからもわかるように、その成長が止まらないからです。

Nvidia の今後の GPU と相互接続テクノロジの GPU スケーリング能力を説明するために、Kharya 氏は、Nvidia の新しい Hopper ベースの H100 GPU が第 3 四半期にリリースされると、8,000 GPU の H100 ベースのクラスターで、3,950 億パラメータの Mixture of Experts トランスフォーマー モデルを、2020 年にリリースされた Nvidia の A100 GPU を使用した同等のクラスターよりも 9 倍速くトレーニングできるようになると述べました。つまり、モデルのトレーニングには、A100 では 7 日間かかっていたのが、わずか 20 時間で済むということです。

「これにより、次世代の高度な AI モデルの作成も可能になります。トレーニングにかかる​​実用的な時間内で実現可能になるからです」と同氏は述べた。

カリヤ氏によると、H100の高いスケーラビリティは推論にも大きな影響を与える。リアルタイムチャットボットに5300億パラメータのMegatronモデルを使用した場合、H100はA100の30倍のスループットを実現できる。チャットボットは1秒のレイテンシ閾値を要求することが多いため(人が応答を待つのにどれほど時間がかかるかはご存じだろう)、これは注目に値すると彼は付け加えた。

H100 が A100 に対して提供する大幅なパフォーマンス向上以外にも、Nvidia が大規模な GPU クラスターをより効率的にできる主な要因がいくつかあると Kharya 氏は言います。

まず、第4世代のNVLinkインターコネクトがあります。これは、NVIDIAが新しいDGX H100システムのすべてのH100 GPUを接続するために使用されています。このインターコネクト技術は、前世代のNVLinkと比較して50%高速化された900GBpsのスループットを提供します。このNVLink技術は、DGX内の8つのGPU間のGPU間通信を可能にするNVIDIAの新しいNVSwitchの基盤となっています。

エヌビディア

Nvidiaがソフトウェアとサービスに将来性を見出す理由:継続的な収益

続きを読む

同様に重要なのは、NVIDIAの新しい外付けNVLinkスイッチです。このスイッチは最大32台のDGX H100システム(合計256基)を接続し、同社の新しいDGX SuperPODスーパーコンピューターを構成できます。Kharya氏によると、この新しいスイッチシステムは、NVIDIAが2020年に買収したMellanox Technologiesによって開発されたQuantum-1 InfiniBandインターコネクトの9倍の帯域幅を提供します。

カリヤ氏は、256基以上のGPUを接続する大規模GPUクラスターには、NVIDIAの新しいQuantum-2 InfiniBandインターコネクトも利用できると述べた。この新世代の高速インターコネクト技術は、Quantum-1の2倍の帯域幅を備えているという。

Kharya 氏によると、NVLink スイッチと Quantum-2 InfiniBand 相互接続を実現する重要な技術の 1 つは、同社の SHARP ネットワーク内コンピューティング ソフトウェア (Scalable Hierarchical Aggregation and Reduction Protocol の略) です。

現在第3世代となるSHARPの主な目標は、複数ノードからなるクラスター間でデータを送信するために使用されるMessage Passing Interface APIの高速化です。Kharya氏によると、SHARPはクラスター内のCPUからネットワークスイッチ(今回の場合はNVLinkスイッチまたはQuantum-2 InfiniBandスイッチ)にメッセージング処理をオフロードすることでこれを実現しています。

「これにより、異なるエンドポイント間でデータを送受信する必要がなくなり、ネットワーク全体の効率が向上します」とKharya氏は述べた。また、CPUのコンピューティングリソースが解放され、クラスター全体のパフォーマンスが向上する。

  • Nvidiaは英国最強のスーパーコンピュータ「Cambridge-1」をArmの近隣に開設した。
  • Nvidia CEO のジェンスン・ファンがチップ、GPU、メタバースについて語る
  • Supermicroの「ユニバーサルGPU」システムはあらゆる要素を歓迎する
  • A100スーパーGPUのデビューから6か月後、Nvidiaはメモリを2倍にし、帯域幅を向上

「最終的な効果としては、256 個の GPU のクラスターでネットワーク内コンピューティングが 15 倍になる」と同氏は付け加えた。

トランスフォーマーモデルに関して役立つ最後の要素は、H100に搭載された新しいトランスフォーマーエンジンです。このエンジンは、精度を維持しながら8ビットと16ビットのフォーマット間で精度を「インテリジェントに」管理することで、大規模なディープラーニングモデルの処理を高速化し、A100と比較してモデルのトレーニングを最大6倍高速化します。これはソフトウェアとの連携によって実現されています。

GPUからシステム、ネットワーク、ソフトウェアに至るまで、非常に多くの領域にわたってパフォーマンスを最適化できるNVIDIAの能力は、CEOのジェンスン・フアン氏がNVIDIAが単なるGPUのプロバイダーではなく「フルスタックコンピューティング企業」になる必要があると考える理由を強調しています。

同社がさまざまな分野の企業買収に熱心に取り組んできたのも、このためだ。

「これらのテクノロジーの総合的な効果は、パフォーマンスとスケーラビリティの両方を向上させることです」とKharya氏は述べた。® 

Discover More