Nvidiaの最新GPUアーキテクチャ、Ampereがついに登場。AI全般に革新的なアクセラレーションを提供

Table of Contents

Nvidiaの最新GPUアーキテクチャ、Ampereがついに登場。AI全般に革新的なアクセラレーションを提供

ビデオNvidia は、最新の Ampere アーキテクチャに基づく新しい製品ラインを公開し、前世代よりも 20 倍強力で AI スーパーコンピューターを駆動できる最新の A100 GPU と、IoT デバイスで機械学習ワークロードを実行するための小型チップを公開しました。

CEOのジェンスン・フアン氏は、通常、3月22日から26日に開催予定だった同社の年次GPUテクノロジーカンファレンスで新製品を発表している。しかし、シリコンバレーのサンノゼ・マッケンナリー・コンベンションセンターで1万人が来場すると見込まれていたこのイベントは、新型コロナウイルスの世界的な感染拡大を受けて中止となった。フアン氏は代わりに、基調講演を事前に録画し、YouTube動画として公開することを決定した。

今年の発表の中で特に注目すべきは、NVIDIAがついにAmpereというコードネームで呼ばれる革新的なアーキテクチャを導入し、これまでの世代を凌駕し、これまでで最も強力なGPUセットとなったことです。主なハイライトは以下のとおりです。

最新のAmpereビルドの核となるA100をご紹介します

巨大なニューラルネットワークの学習や、計算負荷の高い機械学習ワークロードの高速処理を可能にするAIスーパーコンピュータやサーバーの開発を目指すNVIDIAの取り組みの中核を成すチップがA100です。A100に関する企業概要は、こちらをご覧ください。

YouTubeビデオ

各チップには540億個のトランジスタが集積されており、TSMCが製造する7nmプロセスチップとしては世界最大規模となります。A100は40GBのHBM2メモリを搭載し、これは前世代のTesla Volta V100より8GB増加しています。メモリ帯域幅は1.6TB/秒で、AIモデルのトレーニング時には32ビットFP使用時に最大312TFLOPS、推論実行時にはINT8使用時に1,248TOPSを実現します。これらの数値は、V100と比較して20倍の性能向上となります。また、64ビットFP使用時には最大400ワットの消費電力で9.7TFLOPSで動作可能です。

a100

Nvidia の A100 - クリックすると拡大します。

「NVIDIA A100 GPUは、AIパフォーマンスを20倍に飛躍させる、エンドツーエンドの機械学習アクセラレータです。データ分析からトレーニング、推論まで、あらゆる場面で活用できます」とフアンは述べています。「スケールアップとスケールアウトのワークロードを、初めて1つのプラットフォームで高速化できるようになりました。NVIDIA A100は、スループットの向上とデータセンターのコスト削減を同時に実現します。」

Huang氏が「スケールアップ」という言葉で言及しているのは、複数のA100チップを用いて高性能コンピューティング用のサーバーを構築することです。一方、「スケールアウト」とは、それらを分割し、推論のためのより小規模で独立したワークロードを実行することを意味します。これについては後ほど詳しく説明します。

さて、A100チップ単体の話に戻りましょう。ボード上のダイは826mm²で 432個のTF32 Tensorコアを搭載し、FP32やFP16を含む様々な精度を600GB/秒のインターコネクト帯域幅で処理できます。また、マルチインスタンスGPU(MIG)や構造的スパース性といった新機能や改良機能もいくつか搭載されています。

MIGは、1つのA100を7つの独立したGPUに分割し、それぞれが様々なサイズの異なる計算ジョブを実行することで、使用率を最適化します。構造的スパース性により、研究者は行列がスパースな場合(つまり、配列に多くのゼロが含まれる場合)、メモリと計算を消費する行列演算を最大2倍高速化できます。

ビッグ8 - DGX

A100 を 8 台組み合わせるとどうなるでしょうか?DGX A100 システムでは、特に大規模なデータセットやスーパーコンピューティング クラスターでモデルをトレーニングできるようになります。

DGX A100は320GBのHBM2メモリを搭載し、5ペタフロップスの性能と12.4TB/秒の帯域幅を実現します。8基のA100は、4.8TB/秒の双方向帯域幅をサポートする6つのNVSwitchインターコネクトで接続されています。また、NVIDIA Mellanox ConnectX-6 HDRを採用しているため、システムは3.6TB/秒の速度で他のネットワークインターフェースに接続できます。

各DGX A100は、単一の大規模システムとして運用することも、56の異なるインスタンスに分割して運用することもできます。サーバーは通常、ストレージ、CPU、トレーニング、推論など、異なる種類のクラスターで構成されています。NVIDIAのアクセラレーテッドコンピューティング担当プロダクトマーケティングディレクター、パレシュ・カリヤ氏は水曜日の記者会見で、一部のサーバーは過剰に利用され、一部のサーバーは時間帯によってリソース不足に陥ると述べました。

a12

8 つが 1 つになります - クリックすると拡大します。

Nvidiaは、5台のDGX A100を1ラックに搭載すれば、AIモデルのトレーニングと推論用に分割されたデータセンター全体を「消費電力は20分の1、設置スペースは25分の1、コストは10分の1」で置き換えることができると主張した。「だからこそ、ジェンセン氏は『買えば買うほど節約になる』と言っているのです」とKharya氏は熱く語った。

同社の最初の顧客は、イリノイ州にある米国エネルギー省の研究施設であるアルゴンヌ国立研究所で、研究者らはそこでスーパーコンピューターを使ってCOVID-19と戦っている。

「アルゴンヌ国立研究所に導入される新しい DGX A100 システムのコンピューティング能力は、研究者が治療法やワクチンを研究し、ウイルスの拡散を研究するのに役立ちます。科学者は AI を活用した何年分もの作業を数か月または数日で実行できるようになります」と、アルゴンヌ国立研究所のコンピューティング、環境、生命科学担当副所長リック・スティーブンス氏は述べています。

DGX A100 は現在 199,000 ドルで入手可能です。

Nvidiaは、アラブ首長国連邦のUAE人工知能局やベトナムのVinAI Researchなど、他国の国立研究施設からも注文を受けている。

これがPODレースだ

さらなる計算能力を求めている場合は、140 個の DGX A100 システムで構成される Nvidia の DGX SuperPOD というオプションがあります。

この巨大クラスターは700ペタフロップスの性能に達し、トップ20のスーパーコンピュータに匹敵します。実際、NVIDIAは自社製のスーパーコンピュータ「SaturnV」を4基のDGX SuperPODS(A100プロセッサ1,120基)にアップグレードし、さらに2.8エクサフロップスの性能向上を実現しました。複数の場所に配置された複数のクラスターで構成されるSaturnVは、現在、合計4.6エクサフロップスで動作可能です。Kharya氏によると、SaturnVは現在世界最速のAIスーパーコンピュータとのことです。

a13

スーパーサイズミー - クリックすると拡大します。

EGX A100

Nvidia は、非常に大型の DGX SuperPOD から、カメラやスマート冷蔵庫などの IoT デバイスのセンサーから送られてくるデータを処理するために作られた小型の EGX A100 に戻りました。

EGX A100は、最大200GB/秒のデータを受信できます。また、この新しいアーキテクチャにより、チップで処理されたIoTセンサーからのデータは、GPUに直接送信される前に暗号化されるため、医療や小売業のアプリケーションにおいてセキュリティが向上します。

「IoTとAIの融合は、『あらゆるものをスマートにする』革命を引き起こしました」とフアンは述べています。「電話業界がスマートフォンで実現したように、大手企業は今やインテリジェントなコネクテッド製品やサービスを提供できるようになりました。NVIDIAのEGX Edge AIプラットフォームは、標準的なサーバーを、クラウドネイティブでセキュアな小型AIデータセンターへと変革します。NVIDIAのAIアプリケーションフレームワークを活用することで、企業はスマートリテールからロボット工場、自動化されたコールセンターに至るまで、幅広いAIサービスを構築できます。」

広報担当者はThe Registerに対し、「NVIDIA AmpereクラスGPUの完全な仕様を公表する準備はまだできていません。NVIDIA Ampere GPUとMellanox ConnextX-6 Dxを組み合わせたアーキテクチャを発表したのは、ソフトウェアエコシステムへの参入を開始し、これらのカードの新しいセキュリティとエッジ機能を活用できるようにするためです。出荷が近づきましたら、より詳細な仕様を公開する予定です。」と述べた。

今年末には顧客に提供される予定です。

最後に、Nvidia が提供する最新かつ最小のチップは、マイクロサーバー向けのクレジットカード サイズの EGX Jetson Xavier NX です。

各モジュールは、15ワット動作時に最大21 TOPS、10ワット動作時に最大14 TOPSの性能を備え、IoTセンサーから受信したデータを迅速に分析できます。現在ご注文を受け付けております。®

Discover More