GTC Nvidiaは、大規模なニューラルネットワークのトレーニングやスーパーコンピューターの駆動用にArmベースの汎用プロセッサ「Grace」を設計し、2023年に出荷する予定であると発表した。
このニュースはそれほど驚くべきものではないだろう。例えば、NVIDIAはTegraファミリーと呼ばれるArmベースのシステムオンチップファミリーを擁しており、組み込み機器やIoT(モノのインターネット)をターゲットとしている。また、昨年、英国の半導体設計企業Armを400億ドルで買収しようとした際にも、より強力なプロセッサを自社開発したい意向を示唆していた。
ジェンセンさんがキッチンでチップスを調理している様子… 出典: Nvidia GTC 基調講演ライブストリーム
NVIDIAのCEO、ジェンスン・フアン氏は月曜日、自宅のキッチンで年次GPUテクノロジーカンファレンスの開会の辞を述べ、次期プロセッサはCOBOLプログラミング言語の作成を支援したことなどで知られるアメリカのコンピューター科学者、グレース・ホッパー少将にちなんで名付けられたと語った。
NvidiaはGPUを小型化し、データセンターにAIを組み込み、VMwareとの友好関係を築けるようにする
続きを読む
グラフィックプロセッサはニューラルネットワークの学習と推論処理を高速化するために利用されており、実際に利用されています。しかし、これらのGPUは、全体の処理をオーケストレーションし、ソフトウェアアプリケーションとハードウェアアクセラレータ間のデータのやり取りを汎用プロセッサに依存しています。そのため、これらのホストプロセッサは専用GPUコアのボトルネックとなる可能性があり、NVIDIAはGraceでこの問題を解決したいと考えています。このチップファミリーはNVIDIAのGPUと連携して動作するように設計されており、同社のNvLinkテクノロジーによりCPU-GPU間インターコネクト速度は900GB/秒に達すると言われています。
比較のために、NVIDIAの広報担当者は、1つのCPUに4つのGPUを接続したNVIDIA DGX A100システムの半分で、合計64GB/秒の帯域幅を実現していると述べました。「Graceでは、同様の4GPU構成で、4つのGrace CPUがそれぞれ次世代NVLinkを介してGPUに接続され、900GB/秒を超える双方向帯域幅を実現します。これにより、4つのGPU全体の双方向帯域幅は約4000GB/秒、片方向では約2000GB/秒になります。つまり、4つのGPUは、システムメモリに約30倍の帯域幅でアクセスできることになります」と説明されています。
GraceはCPU間インターコネクト速度が600GB/秒、LPDDR5xメモリ帯域幅が500GB/秒とされている。Nv氏によると、Armの次世代64ビットNeoverseプロセッサコア(後日発表予定)を搭載し、「最大規模のAIおよび高性能コンピューティングワークロード」の実行を目指しているという。技術的な詳細はまだほとんど明らかにされていない。
「NVIDIA による Grace データセンター CPU の導入は、Arm のライセンス モデルがいかにして重要な発明を可能にし、世界中の AI 研究者や科学者の素晴らしい研究をさらにサポートするかを明確に示しています」と Arm の CEO であるサイモン・セガーズ氏は声明で述べています。
エヌビディアは、Graceチップの出荷を2023年に開始すると発表し、このチップはわずか数日間で1兆個のパラメータを持つモデルを学習できるようになると見込んでいる。スイス国立スーパーコンピューティングセンターとアメリカのロスアラモス国立研究所は、Graceを搭載したAIスーパーコンピューターの構築を発注したと発表された。
今後も続く
Graceは、NVIDIAが今後数年間で提供を約束している唯一のチップではありません。他にも、次世代データ処理ユニットであるBlueField-3 DPU、そして自動運転車向けシステムオンチップであるNVIDIA Drive Atlanなど、今後登場が予定されているチップがいくつかあります。
NVIDIAのBlueField DPUは、ソフトウェア定義ネットワーク、ストレージ運用、セキュリティ防御といったSmartNICスタイルのワークロードを高速化するように設計されています。基本的に、ホストプロセッサからDPUにタスクをオフロードします。BlueFieldはNVIDIAのGPUにも接続できます。Huang氏によると、彼の巨大企業のクラウドゲームプラットフォームGeForce Nowを支えるサーバーにはBlueFieldチップが使用されているとのことです。
「現代のハイパースケールクラウドは、データセンターの根本的に新しいアーキテクチャを推進しています」と最高経営責任者は述べています。「仮想化、ネットワーク、ストレージ、セキュリティ、その他のクラウドネイティブAIサービスの膨大な計算負荷をオフロードし、高速化するには、データセンター基盤ソフトウェアを処理するために設計された新しいタイプのプロセッサが必要です。BlueField DPUの時代が到来したのです。」
これは本質的には、16個のArm Cortex-A78 CPUコアを搭載し、合計220億個のトランジスタを集積した強力なシステムオンチップです。最大400GbpsのイーサネットおよびInfiniBand接続に対応し、PCIe 5.0にも対応するとされています。BlueField-3は前世代機の10倍の性能向上が見込まれており、2022年にサンプル出荷、その後出荷開始予定です。Huang氏はまた、2024年にBlueField-4が登場し、最大800Gbpsのネットワークトラフィックを処理できることを示唆しました。
NvidiaのBlueFieldロードマップ…出典:Nvidia。クリックして拡大
次はAtlanです。2022年に出荷予定のNvidiaの自動運転車用チップOrinの約4倍の性能を発揮するということ以外、Atlanについてはあまり知られていません。3年後の2025年の発売が予定されているAtlanは、Nvidiaの次世代GPUアーキテクチャ、Arm CPUコア、そしてBlueFieldテクノロジーを単一のシステムオンチップ(SoC)に統合します。
Nvidia はまた、20 台以上の Nvidia DGX A100 システム (少なくとも 160 個の 80GB A100 GPU) を搭載した DGX SuperPOD が今四半期に注文可能になると発表しました。この機器のフル構成の価格は 6,000 万ドルです。
さらに手頃な価格となるはずの DGX Station 320G も、月額 9,000 ドルのサブスクリプションまたは 1 回限りの 149,000 ドルの支払いで利用できるようになります。
共有ラボ向けDXGステーション320GB…出典:Nvidia。クリックして拡大
ソフトウェアについて。音声自動チャットボットなどのための会話型人工知能「Jarvis」がリリースされました。また、NVIDIAは、GPUを用いた量子コンピューターのシミュレーション精度向上に役立つとされるcuQuantum SDKを発表しました。®