Nvidiaが最新GPUのスペックを公開:HopperベースのH100

Table of Contents

Nvidiaが最新GPUのスペックを公開:HopperベースのH100

GTC Nvidia は、次世代 Hopper アーキテクチャを搭載した H100 GPU を発表し、2 年前の A100 と比べて AI パフォーマンスが大幅に向上し、より安全な環境で大規模なディープラーニング モデルを高速化すると主張しています。

新しいプロセッサはこれまで以上に電力を消費し、H100のSXMフォームファクタでは最大700ワットを必要とします。これにはNvidiaのカスタムHGXマザーボードが必要となり、チップ設計者のA100対応品の熱設計よりも300ワット高い電力を要求します。

数か月にわたる期待の後、GPU の巨人は、火曜日に行われた同社のバーチャル GTC 2022 イベントで CEO のジェンスン フアン氏が行った基調講演で、Hopper を搭載した H100 だけでなく、H100 を搭載したシステムやリファレンス アーキテクチャ、そしてデータセンター グレードの GPU に関するその他多くの詳細を明らかにしました。

Nvidiaの新しいH100 SXM GPUのレンダリング

Nvidia の H100 SXM グラフィック プロセッサのレンダリング ... クリックして拡大

700ワットという数字は大きいように聞こえるが、Nvidiaのデータセンターコンピューティング担当ディレクターのParesh Kharya氏はThe Registerに対し、H100はさらに電力効率が高く、ワット当たりの性能はA100の3倍以上であると語った。

Kharya 氏のこの発言の根拠は、第 3 四半期に発売され PCIe フォーム ファクターが補完される予定の H100 SXM パーツが、AI パフォーマンスの測定に代わる同社の新しい 8 ビット浮動小数点形式である FP8 で 4 ペタフロップス (1 秒あたり 4 京回の浮動小数点演算) を実行できるという Nvidia の主張である。

これにより、H100はA100の6倍の速度となり、Kharya氏によると、このGPUは高レベルの浮動小数点精度において、FP16(2ペタフロップス)で3倍、NvidiaのFP32に隣接するTensorFloat32形式(1ペタフロップス)で3倍、FP64(60テラフロップス)で3倍の性能を発揮します。Kharya氏によると、これらの性能により、H100はAMD、Cerebras Systems、GraphcoreといったAI分野の競合製品に対して強力な存在となっています。

「H100は1台あたり4ペタフロップスのAIコンピューティング能力を備えています。このレベルのAI性能に匹敵するものは他にありません」と彼は述べた。「当社のソフトウェアスタックと、データセンター規模まで拡張可能なプラットフォームを組み合わせることで、お客様に引き続き優れたパフォーマンスのメリットを提供できる体制が整いました。」

スピード、フィード、AIスケーリングの夢

H100は、TSMCのカスタム4nmプロセスを用いた800億個のトランジスタで構成されており、NVIDIAによると、このGPUは「世界最先端のチップ」となっている。GPUのアーキテクチャであるHopperは、2020年のAmpereの後継であり、米国のコンピュータサイエンスのパイオニアであるグレース・ホッパーにちなんで命名された。彼女の名前は、2023年に発売予定のNVIDIA初のサーバーCPUにも使用されている。

NVIDIAによると、H100はPCIe Gen5接続をサポートする初のGPUであり、スループットは前世代の2倍の128GBpsに向上しています。また、HBM3高帯域幅メモリ仕様を採用した初のGPUでもあり、合計80GBのメモリを搭載し、最大3TBpsのメモリ帯域幅を実現しています。これはA100と比較して50%の高速化です。さらに、約5TBpsの外部接続により、チップ内でも超高速データ転送が可能です。

  • Supermicroの「ユニバーサルGPU」システムはあらゆる要素を歓迎する
  • AMDがIntelに「我々のGPUの才能を奪う?2人でゲームに参加できる」
  • 独自のチップを作りたいのに、マイクロソフトほど裕福ではない場合は、誰に頼ればいいのでしょうか?
  • GPUをSSDに直接接続して速度を上げたいなら、これが最適だ

これらの進歩は、Nvidia が H100 について主張する 6 つの「画期的なイノベーション」の 1 つであり、多くの自然言語処理ワークロードを強化する人気のディープラーニング モデル タイプを高速化する新しい Transformer Engine も含まれています。

カリヤ氏によると、Transformer EngineはNVIDIAのソフトウェアと連携し、8ビットと16ビットのフォーマット間でTransformerモデルの精度を「インテリジェントに」管理しながら精度を維持し、A100と比較して最大6倍の速度でモデルのトレーニングを実現するという。これにより、最大5300億個のパラメータを持つTransformerモデルのトレーニングにかかる​​時間を、数週間から数日に短縮できるという。

NVIDIAがH100に実装したコンフィデンシャル・コンピューティングも、画期的な進歩です。同社によれば、これはGPUとしては初とのことです。これにより、GPUはIntelまたはAMDのCPUと連携し、ハイパーバイザー、オペレーティングシステム、あるいは物理的にアクセスできる者から保護された仮想化環境内に、いわゆるTrusted Execution Environment(信頼実行環境)を構築できるようになります。

H100のその他の画期的な機能としては、第4世代のNVIDIA NVLinkインターコネクトが挙げられます。外付けNVLinkスイッチと組み合わせることで、最大256台のH100をネットワーク経由で接続でき、前世代の9倍の帯域幅を実現します。また、このGPUにはNVIDIAの第2世代マルチインスタンスGPUが搭載されており、スループットを仮想化し、7つのGPUインスタンスをそれぞれ完全に分離できるようになりました。

最後のハイライトは、H100 の新しい DPX 命令です。これにより、さまざまなアルゴリズムで人気の高い手法である動的プログラミングが、CPU と比較して最大 40 倍、前世代の GPU と比較して最大 7 倍高速化されます。

あなたの近くのサーバーまたはクラウドに登場

Nvidia は、オンプレミス データセンター、クラウド インスタンス、エッジ サーバー全体で H100 が広く採用されることを期待しており、Amazon Web Services、Cisco、Dell Technologies、Google Cloud、Hewlett Packard Enterprise、Lenovo、Microsoft Azure を含む多数のサーバー メーカーやクラウド プロバイダーとの新たな購入サイクルを促進することを約束しています。

NVIDIAは、これまでの慣例通り、DGXシステムシリーズにH100を搭載します。DGXシステムシリーズにはNVIDIAのソフトウェアがプリロードされており、最速のAIパフォーマンスを実現するよう最適化されています。DGX H100と名付けられたこの新システムは、8基のGPUを搭載し、NVIDIAのFP8フォーマットで32ペタフロップスのAIパフォーマンスを実現します。これは同社によると、前世代の6倍の速度となります。

Nvidiaの新しいDGX H100システムのレンダリング

Nvidiaの新しいDGX H100システムのレンダリング

Nvidia によると、同社の新世代 NVLink スイッチ テクノロジのおかげで、同社は DGX SuperPOD クラスターに最大 32 台の DGX H100 システムを接続することができ、FP8 の 1 エクサフロップス、つまり 1 秒あたり 1 京の浮動小数点演算が可能になるという。

チップ設計者は、複数の 32 システム クラスターを接続することもできます。ここで言う「複数」というのは、かなり多くの数を意味します。

好例と言えるのが、NVIDIAが新たに発表したEosスーパーコンピュータです。これは、合計576基のDGX H100を搭載した18基のDGX SuperPODクラスターを接続しています。同社によると、この新型スーパーコンピュータは、FP8で18エクサフロップス、FP16で9エクサフロップス、FP64で275ペタフロップスの性能を発揮します。

H100は第3四半期に発売され、3つのフォームファクタで提供されます。1つ目のSXMは、AIトレーニングとパフォーマンス向上のための高速化を実現しますが、NVIDIAのHGX 100サーバーボードを搭載したサーバーでのみ利用可能です。2つ目のフォームファクタは、メインストリームサーバー向けのPCIeカードで、NVLinkを使用して2つのGPUを接続し、PCIe Gen5接続の7倍の帯域幅を提供するとNVIDIAは述べています。

3 番目のオプションは H100 CNX です。これは、企業向けのマルチノード AI トレーニングやエッジ環境での 5G 信号処理など、高スループットを必要とするワークロード向けに、H100 と Nvidia が買収した Mellanox の ConnectX-7 SmartNIC を組み合わせた PCIe カードです。®

Discover More