うわー、機械学習って、なんて退屈なんだろう…ストレージにGPUをたくさん接続すれば、もっと楽になるのかな

Table of Contents

うわー、機械学習って、なんて退屈なんだろう…ストレージにGPUをたくさん接続すれば、もっと楽になるのかな

分析機械学習では、モデルをトレーニングするには、何百万、場合によっては何十億ものファイルをできるだけ短時間で GPU を備えたトレーニング システムに取り込む必要があるため、ストレージが重要になります。

サプライヤーは、ボトルネックを回避し、ML 顧客の立ち上げを容易にするために、統合型、ハイパーコンバージド、コンポーザブルなシステムを考案しています。

最近、Pure Storage と Nvidia AIRI の統合システムが導入され、FlashBlade に保存されたデータに 4 台の Nvidia DGX-1 GPU 強化サーバーが活用されるようになりました。

これは、HPE の Apollo 6500 Gen10 および IBM の AC922 スーパーチャージ サーバーに続くものです。

NvidiaはDGXのアップデート版であるDGX-2をリリースしました。中国のサーバー企業Inspurとコンポーザブル・インフラストラクチャ・サプライヤーLiqidは、機械学習向けのMatrix Rack Composable Platformを開発しました。一方、X-IOは、サーバーとストレージを統合したAxellioにGPUとSQreamデータベースソフトウェアを追加しました。

ストレージとGPU

エヌビディアDGX-2

DGX-2 は 2 つの DGX-1 に、さらに CPU、メモリ、相互接続帯域幅、ストレージを追加したものです。

  DGX-1 DGX-2 注記
GPU 8x V100 16倍V100  
相互接続 NVリンク 12個のNVSwitchを備えたNVlink2 216ポート
CPU 2x 20コア Xeon E5-2698 v4 2l.2GHz Xeon プラチナ x 2 より高速なCPU
GPUメモリ 256GB ハードドライブ 512GB  
システムメモリ 512GB DDR4 1.5GB ハードドライブ トリプルプールメモリスペース
ストレージ 4x 1.92TB SSD – 7.68TB 30~60TB NVMe SSD 4~8倍の容量
パフォーマンス 960 TFLOPS 1,920 TFLOPS メモリプールが大きいほどジョブも大きくなる
CUDAコア 40,960 81,920  
テンソルコア 5,120 10,240  
重さ 134ポンド 350ポンド 2倍以上
ネットワーキング 4x EDR InfiniBand & 2x 10GbitE 8x EDR InfiniBand または 100GbitE  
3.5kW 10kW  
価格 14万9000ドル 39万9000ドル 2倍以上

システムメモリが大幅に増加したため、DGX-2ではより大きなジョブを実行できます。これにより、ジョブの完了速度は2倍以上になります。

DGX-2がPure-Nvidia AIRIシステムの発表直後に発表されたことから、PureとNvidiaがDGX-2ベースのAIRIを製造しないことを決定したことは明らかです。しかし、後継のAIRIシステムがDGX-2ベースになり、16基のGPUを占有するために大容量のフラッシュドライブを搭載する可能性はあります。これはおそらく200万ドル以上のシステムとなり、潜在的な顧客数を減少させるでしょう。

インスパーとリキッド

InspurとLiqidは共同でMatrix Rack Composable Platformを開発しました。このプラットフォームにより、ユーザーは特定のワークロードに合わせてCPU、GPU、ストレージの組み合わせを動的に構築できます。Inspurはi24サーバーとGX4シャーシ、NvidiaはTesla V100およびP100 GPU、LiqidはGrid PCIeベースのファブリックハードウェアとソフトウェアを提供しています。

Liqid_inspur_grid

コンピューティング、GPU、ストレージ、イーサネットネットワークリソースを分散したプールのセットから始めます。これらのプールの要素は、PCIeファブリックを介して結合、クラスタ化、オーケストレーション、共有できます。

プールの要素は次のとおりです。

  • 24 個のコンピューティング ノード (デュアル Intel Xeon スケーラブル プロセッサ)
  • 144 台の U.2 ソリッド ステート ドライブ (SSD)、SSD あたり 6.4 TB (922 TB)
  • 24 個のネットワーク アダプタ (NIC)、デュアル 100 Gb/NIC
  • 48 基の NVIDIA GPU (V100 および P100)
  • Liqid Grid(マネージド PCIe Gen 3.0 ファブリック)と Liqid Command Center(ソフトウェア)

Liqid_Grid_スイッチ

Liquid Grid PCIeファブリックスイッチ

最大構成のシステムは、Pure-Nvidia AIRIシステムを圧倒し、Nvidia独自のDGX-2の3倍のV100 GPUを搭載する可能性があります。このようなフル構成のMatrix Rackのコストは天文学的な額になるでしょう。

Inspur Systemsのゼネラルマネージャー兼副社長であるドリー・ウー氏は、次のように述べています。「AIとディープラーニングのアプリケーションが次世代のインフラストラクチャ設計の方向性を決定します。そして、動的に構成するGPUがこれらの新しいプラットフォームの中心になると考えています。」

Attala Systems、HPE の Synergy、DriveScale、Intel の RackScale 製品など、他のコンポーザブル サーバー システム サプライヤーも分散型プールに GPU を追加すると予想されます。

X-IO、SQream、Nvidia

地球上でより手頃な価格の製品に戻ると、X-IO の Axellio エッジ コンピューティング + ストレージ製品が Nvidia GPU インプラントと SQream データベース ソフトウェアを搭載し、「大規模なデータセットの極めて高速なデータ分析を実現する統合アプライアンス」を実現しています。

SQreamのDBMSソフトウェアは、反復的な低レベルSQLクエリ操作をサーバーGPUアクセラレータで実行します。同社によると、複雑なクエリには複数のフィルタ、型変換、複雑な述語、特殊な結合セマンティクス、サブクエリが含まれます。これらのクエリを、複数のテーブルに数十億行が含まれる100TB規模のデータセットで実行すると、完了までに数分から数時間かかる場合があります(クエリレイテンシ)。

SQreamによると、列指向データベースセットに対するクエリは他のリレーショナルデータベースと比較して20倍高速化し、大規模で複雑なデータに対するクエリは最大100倍高速化できるという。100TBレベルのデータセットに対する複雑なクエリのレイテンシは、数秒から数分単位だという。

取り込み速度は最大 2TB/時です。

これにより、大規模データセットに対するSQLクエリの実行に必要なサーバー数を大幅に削減できます。SQreamによると、2Uサーバー1台とGPUの組み合わせは、42Uラック1台分のサーバーと同等です。つまり、SQreamはリレーショナルデータベースを使用することで、驚異的なSQLパフォーマンスを実現できるということです。

そして、X-IO はそれを当社のハードウェアで実行し、さらに高速化することを提案します。

サーバー/ストレージ ベースは、X-IO の Axellio Edge Micro-Datacenter アプライアンス製品です。2U ボックスに、Xeon を 2 基ずつ搭載した 2 つの Xeon サーバー モジュール、2 基の Tesla P100 GPU、PCIe ファブリック、および最大容量 500 TB の 12 基のデュアル ポート NVMe SSD (800、1,600、3,200、または 6,400 GB) をそれぞれ収容できる 1 ~ 6 個の FlashPacs が含まれています。

SQreamとX-IOは、2ノード構成の統合システムでは、ストレージからGPUへのデータ転送速度がGPUあたり最大3.2GB/秒に達すると主張しています。統合システムは、分析実行時に11.5TB/時に達することが可能です。

同社によると、ユーザーは、以前は数分かかっていたクエリにリアルタイムで回答を得たり、クエリ期間を数週間から数年に延長して傾向を見つけたり、数兆行のデータに対してクエリを実行してより速く結果を得たりできるという。

X-IOは機械学習分野にも目を向けているかもしれません。理論上は、機械学習フレームワークのソフトウェアサプライヤーと提携するのは簡単です。単なるパートナーシップの一つ、そうでしょう?

Axellio のデータシートをこちらから入手してください。

よだれを垂らす

機械学習は急成長市場と目されています。オンプレミスのNVMeフラッシュストレージやビッグデータ分析アプリケーションと組み合わせることで、魅力的な選択肢が次々と生まれます。

Dell EMCとNetApp、そしてHuaweiとLenovoがGPU搭載システム市場に参入するのは確実でしょう。Kaminario、Tintri、WDC Tegileといった他のオールフラッシュアレイベンダーも、PureとNvidiaの提携を見て「私も」と考えるかもしれません。

GPU非搭載システムに対するパフォーマンス向上は目覚ましく、利益率を高く設定すれば、歩合制の営業担当者が夢中になるほどで​​す。GPUアクセラレーション対応のサーバー/ストレージ製品開発分野は、サプライヤーが成長の見込みを活かそうと殺到し、今後は熱狂的な開発が見込まれます。®

Discover More