数百万ドル規模のAI巨人同士の激突が再開。NetAppは、最高級のA800フラッシュアレイとNvidia DGX-1をベースにしたONTAP AIアーキテクチャを設計し、PureとNvidiaのAIRI AIシステムインアボックスから資金力のある顧客を奪取しようとしている。
AIに100万ドル以上を費やす余裕があるなら、NvidiaのAIRIの妖精、Pureに会ってみませんか。ハイパーコンバージドのモンスターです。
続きを読む
Nvidia と NetApp は 6 月にリファレンス アーキテクチャで協力し、NetApp の A700 フラッシュ アレイを使用した AI パフォーマンスの結果を提供しました。
Pure Storage は、Nvidia GPU と Pure の FlashBlade アレイを組み合わせた AIRI システムで同様の結果を示し、A700/Nvidia システムを上回りました。
ONTAP AI のドキュメント (PDF) では、システム コンポーネントが詳しく説明されており、A800 が Nvidia の GPU にデータを供給していることを示す詳細なパフォーマンス データも提供されています。これは、現時点では Pure の AIRI システムの FlashBlade アレイよりも高速です。
ONTAP AIは、NetAppのチャネルパートナーを通じて入手可能な製品で事前検証済みの設計を採用しています。主なコンポーネントは次のとおりです。
- NetApp A800(1.92TB NVMe SSD 48 台搭載)
- 8 基の Tesla V100 グラフィック プロセッシング ユニット (GPU) を搭載した Nvidia DGX-1
- DGX-1 あたり 4 枚の Mellanox ConnectX4 シングルポート ネットワーク インターフェイス カード
- Cisco Nexus 3232C 100Gb イーサネット スイッチ
冗長ストレージ、ネットワーク、サーバー接続を備えた高可用性設計を採用しています。
エントリーポイントは1:1 A800:DGX-1構成ですが、1:5構成やそれ以上のスケールアウトも可能です。1:5構成では、5台のDGX-1サーバーが、2台のスイッチを介して1台のA800高可用性(HA)ペアから供給されます。
AIに関しては、PureはNetAppのA700の心臓部にFlashBladeを搭載
続きを読む
各DGX-1サーバーは、2本の100GbitEリンクを介して2台のスイッチに接続します。A800は、4本の100GbitEリンクを介して各スイッチに接続します。スイッチは、フェイルオーバーシナリオ向けに設計された2~4本の100Gbitスイッチ間リンクを装備できます。HA設計はアクティブ/アクティブです。
NetApp A800 および A700 システムは、2 ノード (364.8 TB) から 24 ノード (12 HA ペア) のクラスター (A800 では 74.8 PB、A700 では 39.7 PB) まで拡張できます。
A800システム1台で、シーケンシャルリードで25GB/秒、小規模ランダムリードで100万IOPSのスループットを500μs未満のレイテンシで実現します。A800クラスタ全体では、DGX-1に300GB/秒の速度でデータを送信できます。NetAppによると、A800 HAペアは、ここで使用されているNASワークロードにおいて、最大25GB/秒、レイテンシ1ミリ秒未満での処理が実証されています。
比較すると、NetAppのA700sシステムは複数の40GbitEリンクをサポートし、最大18GB/秒のスループットを実現します。A800システムも40GbitEをサポートしています。
NFS と RoCE
DGX-1 は、クラスター相互接続に 100GbitE RDMA over Converged Ethernet (RoCE) をサポートしています。
ただし、A800はNexusスイッチを介してDGX-1にデータを送信する際にRDMAではなくNFSを使用します。NexusはRoCEを他のすべてのトラフィックよりも優先させる機能を備えているため、100GbitEリンクをRoCEとNFS v3ストレージアクセストラフィックなどの従来のIPトラフィックの両方に使用できます。
RoCEとNFSの両方のストレージトラフィックをサポートするために、複数の仮想LAN(VLAN)がプロビジョニングされています。4つのVLANはRoCEトラフィック専用、2つのVLANはNFSストレージトラフィック専用です。
データアクセスのパフォーマンスを向上させるため、DGX-1 サーバーからストレージシステムへは複数の NFSv3 マウントが行われます。各 DGX-1 サーバーには 2 つの NFS VLAN が設定され、各 VLAN には IP インターフェースが 1 つずつ割り当てられています。AFF A800 システム上の FlexGroup ボリュームは、各 DGX-1 上の各 VLAN にマウントされ、サーバーからストレージシステムへの完全に独立した接続が提供されます。
コンテナ コンテナ コンテナ
DGX-1 サーバーは、NVIDIA GPU Cloud (NGC) の GPU 最適化ソフトウェア コンテナーを活用します。これには、主要なディープラーニング フレームワーク向けのコンテナーが含まれます。NGC ディープラーニング コンテナーは、ドライバー、ライブラリ、通信プリミティブなど、すべてのレイヤーで事前に最適化されています。
Tridentは、DockerおよびKubernetesと完全に統合された、コンテナイメージ向けのNetApp動的ストレージオーケストレーターです。Nvidia GPU Cloud (NGC)やKubernetes、Docker Swarmなどの一般的なオーケストレーターと組み合わせることで、お客様はAI/DL NGCコンテナイメージをNetAppストレージに導入できます。
パフォーマンス
NetApp の技術論文にはパフォーマンス情報が記載されており、GPU の数が増えたときの結果を示す概要グラフも示されています。
すべてがうまくスケールしているように見えます。数値は提供されていませんが、Resnet-50とResnet-152のカテゴリについては、グラフから慎重に推測し、既知のPure AIRIとA700の数値と合わせて表にまとめました。
現時点では、A800の数値は8GPUレベルではA700やPure AIRIの数値と重なっており、16GPUから32GPUへとスケールアウトしています。Pureの今後の開発は、後者のセルに匹敵する性能をもたらす可能性があります。
Resnet-50:
1 GPU | 2つのGPU | 4つのGPU | 8つのGPU | 16個のGPU | 32個のGPU | |
ピュアアイリ | 346 | 667 | 1335 | 2540 | ||
ネットアップ A700 | 321 | 613 | 1131 | 2048 | ||
ネットアップ A800 | 6000 | 11200 | 22500 |
Resnet-152:
1 GPU | 2つのGPU | 4つのGPU | 8つのGPU | 16個のGPU | 32個のGPU | |
ピュアアイリ | 146 | 287 | 568 | 1122 | ||
ネットアップ A700 | 136 | 266 | 511 | 962 | ||
ネットアップ A800 | 2400 | 4100 | 9000 |
以下は、以前の Pure と NetApp のグラフです。
ONTAP AIの価格性能比データはありませんが、数百万ドル規模の費用がかかると推測されます。このレベルのAIは決して安価ではありません。®