うわー、機械学習って、なんて退屈なんだろう…ストレージにGPUをたくさん接続すれば、もっと楽になるのかな

分析機械学習では、モデルをトレーニングするには、何百万、場合によっては何十億ものファイルをできるだけ短時間で GPU を備えたトレーニングシステムに取り込む必要があるため、ストレージが重要になります。

サプライヤーは、ボトルネックを回避し、ML 顧客の立ち上げを容易にするために、統合型、ハイパーコンバージド、コンポーザブルなシステムを考案しています。

最近、Pure Storage と Nvidia AIRI の統合システムが導入され、FlashBlade に保存されたデータに 4 台の Nvidia DGX-1 GPU 強化サーバーが活用されるようになりました。

これは、HPE の Apollo 6500 Gen10 および IBM の AC922 スーパーチャージサーバーに続くものです。

NvidiaはDGXのアップデート版であるDGX-2をリリースしました。中国のサーバー企業Inspurとコンポーザブル・インフラストラクチャ・サプライヤーLiqidは、機械学習向けのMatrix Rack Composable Platformを開発しました。一方、X-IOは、サーバーとストレージを統合したAxellioにGPUとSQreamデータベースソフトウェアを追加しました。

ストレージとGPU

エヌビディアDGX-2

DGX-2 は 2 つの DGX-1 に、さらに CPU、メモリ、相互接続帯域幅、ストレージを追加したものです。

	DGX-1	DGX-2	注記
GPU	8x V100	16倍V100
相互接続	NVリンク	12個のNVSwitchを備えたNVlink2	216ポート
CPU	2x 20コア Xeon E5-2698 v4 2l.2GHz	Xeon プラチナ x 2	より高速なCPU
GPUメモリ	256GB ハードドライブ	512GB
システムメモリ	512GB DDR4	1.5GB ハードドライブ	トリプルプールメモリスペース
ストレージ	4x 1.92TB SSD – 7.68TB	30～60TB NVMe SSD	4～8倍の容量
パフォーマンス	960 TFLOPS	1,920 TFLOPS	メモリプールが大きいほどジョブも大きくなる
CUDAコア	40,960	81,920
テンソルコア	5,120	10,240
重さ	134ポンド	350ポンド	2倍以上
ネットワーキング	4x EDR InfiniBand & 2x 10GbitE	8x EDR InfiniBand または 100GbitE
力	3.5kW	10kW
価格	14万9000ドル	39万9000ドル	2倍以上

システムメモリが大幅に増加したため、DGX-2ではより大きなジョブを実行できます。これにより、ジョブの完了速度は2倍以上になります。

DGX-2がPure-Nvidia AIRIシステムの発表直後に発表されたことから、PureとNvidiaがDGX-2ベースのAIRIを製造しないことを決定したことは明らかです。しかし、後継のAIRIシステムがDGX-2ベースになり、16基のGPUを占有するために大容量のフラッシュドライブを搭載する可能性はあります。これはおそらく200万ドル以上のシステムとなり、潜在的な顧客数を減少させるでしょう。

インスパーとリキッド

InspurとLiqidは共同でMatrix Rack Composable Platformを開発しました。このプラットフォームにより、ユーザーは特定のワークロードに合わせてCPU、GPU、ストレージの組み合わせを動的に構築できます。Inspurはi24サーバーとGX4シャーシ、NvidiaはTesla V100およびP100 GPU、LiqidはGrid PCIeベースのファブリックハードウェアとソフトウェアを提供しています。

Liqid_inspur_grid

コンピューティング、GPU、ストレージ、イーサネットネットワークリソースを分散したプールのセットから始めます。これらのプールの要素は、PCIeファブリックを介して結合、クラスタ化、オーケストレーション、共有できます。

プールの要素は次のとおりです。

24 個のコンピューティングノード (デュアル Intel Xeon スケーラブルプロセッサ)
144 台の U.2 ソリッドステートドライブ (SSD)、SSD あたり 6.4 TB (922 TB)
24 個のネットワークアダプタ (NIC)、デュアル 100 Gb/NIC
48 基の NVIDIA GPU (V100 および P100)
Liqid Grid（マネージド PCIe Gen 3.0 ファブリック）と Liqid Command Center（ソフトウェア）

Liqid_Grid_スイッチ

Liquid Grid PCIeファブリックスイッチ

最大構成のシステムは、Pure-Nvidia AIRIシステムを圧倒し、Nvidia独自のDGX-2の3倍のV100 GPUを搭載する可能性があります。このようなフル構成のMatrix Rackのコストは天文学的な額になるでしょう。

Inspur Systemsのゼネラルマネージャー兼副社長であるドリー・ウー氏は、次のように述べています。「AIとディープラーニングのアプリケーションが次世代のインフラストラクチャ設計の方向性を決定します。そして、動的に構成するGPUがこれらの新しいプラットフォームの中心になると考えています。」

Attala Systems、HPE の Synergy、DriveScale、Intel の RackScale 製品など、他のコンポーザブルサーバーシステムサプライヤーも分散型プールに GPU を追加すると予想されます。

X-IO、SQream、Nvidia

地球上でより手頃な価格の製品に戻ると、X-IO の Axellio エッジコンピューティング + ストレージ製品が Nvidia GPU インプラントと SQream データベースソフトウェアを搭載し、「大規模なデータセットの極めて高速なデータ分析を実現する統合アプライアンス」を実現しています。

SQreamのDBMSソフトウェアは、反復的な低レベルSQLクエリ操作をサーバーGPUアクセラレータで実行します。同社によると、複雑なクエリには複数のフィルタ、型変換、複雑な述語、特殊な結合セマンティクス、サブクエリが含まれます。これらのクエリを、複数のテーブルに数十億行が含まれる100TB規模のデータセットで実行すると、完了までに数分から数時間かかる場合があります（クエリレイテンシ）。

SQreamによると、列指向データベースセットに対するクエリは他のリレーショナルデータベースと比較して20倍高速化し、大規模で複雑なデータに対するクエリは最大100倍高速化できるという。100TBレベルのデータセットに対する複雑なクエリのレイテンシは、数秒から数分単位だという。

取り込み速度は最大 2TB/時です。

これにより、大規模データセットに対するSQLクエリの実行に必要なサーバー数を大幅に削減できます。SQreamによると、2Uサーバー1台とGPUの組み合わせは、42Uラック1台分のサーバーと同等です。つまり、SQreamはリレーショナルデータベースを使用することで、驚異的なSQLパフォーマンスを実現できるということです。

そして、X-IO はそれを当社のハードウェアで実行し、さらに高速化することを提案します。

サーバー/ストレージベースは、X-IO の Axellio Edge Micro-Datacenter アプライアンス製品です。2U ボックスに、Xeon を 2 基ずつ搭載した 2 つの Xeon サーバーモジュール、2 基の Tesla P100 GPU、PCIe ファブリック、および最大容量 500 TB の 12 基のデュアルポート NVMe SSD (800、1,600、3,200、または 6,400 GB) をそれぞれ収容できる 1 ～ 6 個の FlashPacs が含まれています。

SQreamとX-IOは、2ノード構成の統合システムでは、ストレージからGPUへのデータ転送速度がGPUあたり最大3.2GB/秒に達すると主張しています。統合システムは、分析実行時に11.5TB/時に達することが可能です。

同社によると、ユーザーは、以前は数分かかっていたクエリにリアルタイムで回答を得たり、クエリ期間を数週間から数年に延長して傾向を見つけたり、数兆行のデータに対してクエリを実行してより速く結果を得たりできるという。

X-IOは機械学習分野にも目を向けているかもしれません。理論上は、機械学習フレームワークのソフトウェアサプライヤーと提携するのは簡単です。単なるパートナーシップの一つ、そうでしょう？

Axellio のデータシートをこちらから入手してください。

よだれを垂らす

機械学習は急成長市場と目されています。オンプレミスのNVMeフラッシュストレージやビッグデータ分析アプリケーションと組み合わせることで、魅力的な選択肢が次々と生まれます。

Dell EMCとNetApp、そしてHuaweiとLenovoがGPU搭載システム市場に参入するのは確実でしょう。Kaminario、Tintri、WDC Tegileといった他のオールフラッシュアレイベンダーも、PureとNvidiaの提携を見て「私も」と考えるかもしれません。

GPU非搭載システムに対するパフォーマンス向上は目覚ましく、利益率を高く設定すれば、歩合制の営業担当者が夢中になるほどです。GPUアクセラレーション対応のサーバー/ストレージ製品開発分野は、サプライヤーが成長の見込みを活かそうと殺到し、今後は熱狂的な開発が見込まれます。®

うわー、機械学習って、なんて退屈なんだろう…ストレージにGPUをたくさん接続すれば、もっと楽になるのかな

Table of Contents

エヌビディアDGX-2

インスパーとリキッド

X-IO、SQream、Nvidia

よだれを垂らす

Discover More

韓国のアプリメーカーScatter Lab、個人データを利用して同性愛嫌悪やわいせつなチャットボットを作成したとして罰金

日々豊かになる、家庭とHuawei：AppleのSnapdragonモデムへの渇望、Qualcommのスマートフォン回復が報われる

マイクロソフト中国は30周年を迎え、国民に雇用と輸出促進の贈り物を贈ります

Table of Contents

エヌビディアDGX-2

インスパーとリキッド

X-IO、SQream、Nvidia

よだれを垂らす

Smart Recommendations

Discover More