AIに100万ドル以上を費やす余裕があるなら、NvidiaのAIRIの妖精、Pureに会ってみませんか。ハイパーコンバージドのモンスターです。

Table of Contents

AIに100万ドル以上を費やす余裕があるなら、NvidiaのAIRIの妖精、Pureに会ってみませんか。ハイパーコンバージドのモンスターです。

Pure Storage と Nvidia は、数百万のデータ ポイントを使用して AI モデルをトレーニングするための統合機械学習システムを開発しました。

これは AIRI (AI-Ready Infrastructure) と呼ばれ、Pure FlashBlade オールフラッシュ アレイと 4 つの Nvidia DGX-1 GPU アクセラレーション ボックス、および Arista の 100GbitE スイッチ ペアを組み合わせたものです。

このシステムは Pure と Nvidia によって設計されており、標準的な統合インフラストラクチャの売り文句であるコンポーネントを個別に購入して統合するよりも、購入、導入、運用が簡単でシンプルになると言われています。

AIRI_ラック

AIRI のラックは、データセンターの望ましいオブジェクトとなるように設計されています。

FlashBladeは、Pure Storageのオールソリッドステートストレージアレイで、非構造化データへの高速アクセスを実現します。4Uの筐体に、垂直にマウントされた15台のブレード(オブジェクトノードサーバー)が収容されています。各ブレードはマルチコアIntel Xeon CPUと17TBのフラッシュメモリを搭載し、総容量は255TB、データ削減後の実効容量は約523TBです。また、各ブレードにはARMコア2基、FPGA、NVRAM、PCIeベースのネットワークも搭載されています。これは、コモディティSSDベースのシステムとは全く異なります。

これは強力な並列アクセス フラッシュ アレイであり、AIRI では 160,000 個を超える GPU コアにデータを供給する必要が生じます。

このシステムは、NVlinkで相互接続されたグラフィックスチップであるTesla V100 GPUを8基搭載したIntel Xeonベースのサーバーである4台のDGX-1システムにデータを供給します。これらのGPUは非常にパワフルで、それぞれ5,120基のCUDAコア、640基のTensorコア、16MBのキャッシュ、そして900GB/秒の帯域幅を持つ16GBのHBM2メモリバンクを備えています。V100は、64ビット浮動小数点演算で最大7.5TFLOPS、32ビット浮動小数点演算で最大15TFLOPSの演算性能を発揮します。

AIRIは32基のV100を搭載し、163,840基のCUDAコアと20,480基のTensorコアを利用できます。Tensorコアの演算性能は4PFLOPSと聞いています。ただし、アプリケーション(機械学習ジョブ)はコンテナ内で実行する必要があるという点が課題です。

外部との接続には、GPUDirect RDMAをサポートするArista 100GbEスイッチが2台搭載されています。これにより、PCIe機能を利用してGPUとFlashBlade間の直接かつ高速なデータ転送が可能になります。FlashBladeとDGX-1間のインターフェースはファイルベースのNFSです。

使用された具体的な Arista 製品については明らかにされていない。

付属のソフトウェア項目は 2 つあります。

  • Nvidia の GPU クラウド ディープラーニング スタック。
  • 構成検証およびマルチノード トレーニング管理システムである AIRI スケーリング ツールキット。

Pure 社は、このソフトウェアにより、データ サイエンティストが機械学習プロジェクトを数日や数週間ではなく、数時間で立ち上げて実行できるようになるはずだと述べています。

AIRIは、機械学習システム市場において、HPEのApollo 6500 Gen-10システムやGPU強化型IBM AC922サーバーと競合することになるだろう。AIRIははるかに強力に見える。

HPEのApollo 6500 Gen-10は、単精度浮動小数点演算を使用して最大125 TFLOPSの演算処理が可能です。V100単体では約15 TFLOPSなので、DGX-1単体では約120 TFLOPS、DGX-1を4基搭載したAIRIでは480 TFLOPSの性能となります。これは全く異なるレベルの性能です。

IBMのAC922は最大6基のTesla V100 GPUをサポートしますが、これはDGX-1 1基より2基少ない数です。一方、AIRIは4基のDGX-1を搭載しています。これもIBMのシステムとはレベルが異なります。

Pure 社によると、AIRI では複数のトレーニング ジョブを並行して実行でき、他のシステムよりも速く完了し、実行時間が通常の 4 分の 1 に短縮されるという。

価格はどうでしょうか? Pure社はチャネルサプライヤー次第だとして価格を明かしませんでしたが、部品のコストを反映させるとのことでした。

ざっと計算すると、DGX-1を4台購入すると約60万ドルかかります。Aristaスイッチは1台あたり3,000ドル以上しますが、FlashBladeは実効容量1GBあたり1ドル以下です。つまり、実効容量523TBのFlashBladeは52万3,000ドル以下で購入できます。

ここでは100万ドル以上のシステム、つまり大規模企業や専門分野のお客様が購入されるシステムを検討しています。導入時点では4台のDGX-1をサポートしていますが、導入は1台または2台のDGX-1から始めることも可能で、初期コストを抑えることができます。

顧客となるのは、何百万ものデータ項目に基づいてモデルをトレーニングするために、大規模な機械学習ジョブを多数実行する必要がある組織です。

各 DGX-1 は 3.2kW の電力を消費するため、ストレージ、ネットワーク、Intel コンピューティング シリコンを考慮すると、ほぼ 13kW になります。

AIRI は現在、ePlus Technology、FusionStorm、GroupWare Technology、PNY、Trace3、World Wide Technology、Xenon などの厳選された再販パートナーを通じて入手可能です。®

Discover More