AI、caramba：NetAppが鱗状のA800 ONTAPの獣とPureのAIRIの妖精を対決させる

数百万ドル規模のAI巨人同士の激突が再開。NetAppは、最高級のA800フラッシュアレイとNvidia DGX-1をベースにしたONTAP AIアーキテクチャを設計し、PureとNvidiaのAIRI AIシステムインアボックスから資金力のある顧客を奪取しようとしている。

森の妖精

AIに100万ドル以上を費やす余裕があるなら、NvidiaのAIRIの妖精、Pureに会ってみませんか。ハイパーコンバージドのモンスターです。

Nvidia と NetApp は 6 月にリファレンスアーキテクチャで協力し、NetApp の A700 フラッシュアレイを使用した AI パフォーマンスの結果を提供しました。

Pure Storage は、Nvidia GPU と Pure の FlashBlade アレイを組み合わせた AIRI システムで同様の結果を示し、A700/Nvidia システムを上回りました。

ONTAP AI のドキュメント (PDF) では、システムコンポーネントが詳しく説明されており、A800 が Nvidia の GPU にデータを供給していることを示す詳細なパフォーマンスデータも提供されています。これは、現時点では Pure の AIRI システムの FlashBlade アレイよりも高速です。

ONTAP AIは、NetAppのチャネルパートナーを通じて入手可能な製品で事前検証済みの設計を採用しています。主なコンポーネントは次のとおりです。

NetApp A800（1.92TB NVMe SSD 48 台搭載）
8 基の Tesla V100 グラフィックプロセッシングユニット (GPU) を搭載した Nvidia DGX-1
DGX-1 あたり 4 枚の Mellanox ConnectX4 シングルポートネットワークインターフェイスカード
Cisco Nexus 3232C 100Gb イーサネットスイッチ

冗長ストレージ、ネットワーク、サーバー接続を備えた高可用性設計を採用しています。

エントリーポイントは1:1 A800:DGX-1構成ですが、1:5構成やそれ以上のスケールアウトも可能です。1:5構成では、5台のDGX-1サーバーが、2台のスイッチを介して1台のA800高可用性（HA）ペアから供給されます。

AIに関しては、PureはNetAppのA700の心臓部にFlashBladeを搭載

各DGX-1サーバーは、2本の100GbitEリンクを介して2台のスイッチに接続します。A800は、4本の100GbitEリンクを介して各スイッチに接続します。スイッチは、フェイルオーバーシナリオ向けに設計された2～4本の100Gbitスイッチ間リンクを装備できます。HA設計はアクティブ/アクティブです。

NetApp A800 および A700 システムは、2 ノード (364.8 TB) から 24 ノード (12 HA ペア) のクラスター (A800 では 74.8 PB、A700 では 39.7 PB) まで拡張できます。

A800システム1台で、シーケンシャルリードで25GB/秒、小規模ランダムリードで100万IOPSのスループットを500μs未満のレイテンシで実現します。A800クラスタ全体では、DGX-1に300GB/秒の速度でデータを送信できます。NetAppによると、A800 HAペアは、ここで使用されているNASワークロードにおいて、最大25GB/秒、レイテンシ1ミリ秒未満での処理が実証されています。

比較すると、NetAppのA700sシステムは複数の40GbitEリンクをサポートし、最大18GB/秒のスループットを実現します。A800システムも40GbitEをサポートしています。

NFS と RoCE

DGX-1 は、クラスター相互接続に 100GbitE RDMA over Converged Ethernet (RoCE) をサポートしています。

ただし、A800はNexusスイッチを介してDGX-1にデータを送信する際にRDMAではなくNFSを使用します。NexusはRoCEを他のすべてのトラフィックよりも優先させる機能を備えているため、100GbitEリンクをRoCEとNFS v3ストレージアクセストラフィックなどの従来のIPトラフィックの両方に使用できます。

RoCEとNFSの両方のストレージトラフィックをサポートするために、複数の仮想LAN（VLAN）がプロビジョニングされています。4つのVLANはRoCEトラフィック専用、2つのVLANはNFSストレージトラフィック専用です。

データアクセスのパフォーマンスを向上させるため、DGX-1 サーバーからストレージシステムへは複数の NFSv3 マウントが行われます。各 DGX-1 サーバーには 2 つの NFS VLAN が設定され、各 VLAN には IP インターフェースが 1 つずつ割り当てられています。AFF A800 システム上の FlexGroup ボリュームは、各 DGX-1 上の各 VLAN にマウントされ、サーバーからストレージシステムへの完全に独立した接続が提供されます。

コンテナコンテナコンテナ

DGX-1 サーバーは、NVIDIA GPU Cloud (NGC) の GPU 最適化ソフトウェアコンテナーを活用します。これには、主要なディープラーニングフレームワーク向けのコンテナーが含まれます。NGC ディープラーニングコンテナーは、ドライバー、ライブラリ、通信プリミティブなど、すべてのレイヤーで事前に最適化されています。

Tridentは、DockerおよびKubernetesと完全に統合された、コンテナイメージ向けのNetApp動的ストレージオーケストレーターです。Nvidia GPU Cloud (NGC)やKubernetes、Docker Swarmなどの一般的なオーケストレーターと組み合わせることで、お客様はAI/DL NGCコンテナイメージをNetAppストレージに導入できます。

パフォーマンス

NetApp の技術論文にはパフォーマンス情報が記載されており、GPU の数が増えたときの結果を示す概要グラフも示されています。

ONTAP_AI_パフォーマンス

すべてがうまくスケールしているように見えます。数値は提供されていませんが、Resnet-50とResnet-152のカテゴリについては、グラフから慎重に推測し、既知のPure AIRIとA700の数値と合わせて表にまとめました。

現時点では、A800の数値は8GPUレベルではA700やPure AIRIの数値と重なっており、16GPUから32GPUへとスケールアウトしています。Pureの今後の開発は、後者のセルに匹敵する性能をもたらす可能性があります。

Resnet-50:

	1 GPU	2つのGPU	4つのGPU	8つのGPU	16個のGPU	32個のGPU
ピュアアイリ	346	667	1335	2540
ネットアップ A700	321	613	1131	2048
ネットアップ A800				6000	11200	22500

Resnet-152:

	1 GPU	2つのGPU	4つのGPU	8つのGPU	16個のGPU	32個のGPU
ピュアアイリ	146	287	568	1122
ネットアップ A700	136	266	511	962
ネットアップ A800				2400	4100	9000

以下は、以前の Pure と NetApp のグラフです。

ONTAP AIの価格性能比データはありませんが、数百万ドル規模の費用がかかると推測されます。このレベルのAIは決して安価ではありません。®

AI、caramba：NetAppが鱗状のA800 ONTAPの獣とPureのAIRIの妖精を対決させる

Table of Contents

AIに100万ドル以上を費やす余裕があるなら、NvidiaのAIRIの妖精、Pureに会ってみませんか。ハイパーコンバージドのモンスターです。