パート 1データにコンピューティングを導入することは、ストレージ アクセスのボトルネックを回避するための優れた方法のように思えますが、ソフトウェアの問題、特殊なハードウェアの開発の必要性、および x86 以外の環境のために、進歩は困難です。
データ量がテラバイトからペタバイト、さらにそれ以上に増えるにつれ、データをプロセッサに送るのにかかる時間はますます面倒になってきています。
あらゆるコンピューティングは、コンピューティングとデータを統合し、ストレージからDRAMにデータをロードしてプロセッサが処理できるようにすることを伴います。これは本質的に物理的な近さの問題ではありません。プロセッサがデータから1cm離れているか20cm離れているかは、それほど重要ではありません。重要なのは、データアクセスのレイテンシを短縮し、ストレージからのデータの読み書き速度を向上させることです。
ストレージとコンピューティングの間にボトルネックが存在するのは、ストレージメディア(主にディスク)へのアクセスが遅いためです。ストレージネットワークも遅く、ストレージIOスタックの処理には多くのサイクルを要します。この問題を解決するための試みはいくつかありましたが、いくつかは失敗に終わり、他のものはSSDへのコンピューティングの追加など、現在も開発が進められています。
これらは:
- ストレージアレイにコンピューティングを導入
- ストレージをコンピューティングに導入
- インメモリシステム
- ディスクドライブにコンピューティングをもたらす
- フラッシュドライブにコンピューティングをもたらす
- NVMeoFのバイパス問題
ストレージアレイにコンピューティングを導入
Coho Dataは、ストレージアレイ「DataStream MicroArray」にコンピューティング機能を追加しようと試みました。2015年5月にXeonベースのサーバー/コントローラー、PCIe NVMeフラッシュカード、ディスクストレージを搭載した製品が発表されました。しかし、この製品は開発が進まず、同社は2017年8月に閉鎖されました。
Coho Data DataStream 配列
このコンピューティングは、ビデオ ストリームのトランスコーディングや Splunk スタイルのデータ分析など、いわゆる密接に結合されたストレージ タスクのためにありました。
ホストサーバー上で実行される一般的なアプリケーションを実行するためのものではありませんでした。2つの明らかな問題がありました。まず、アレイ上で動作し、密接に連携したストレージタスクを実行するためのソフトウェアを開発・調達する必要がありました。次に、ホストサーバー上での起動、オーケストレーション、管理、そして計算結果の処理のためのコードを開発・調達する必要がありました。
以前はストレージアレイが接続されたサーバー上で実行されていたタスクは、ホストサーバー部分とストレージアレイ部分に分割して管理する必要がありました。これは、ストレージメディアにコンピューティングを提供する他の製品にも当てはまります。Cohoアレイはx86プロセッサを使用していました。ストレージドライブに提供されるコンピューティングがx86でない場合、その上で実行されるコードの調達や開発は、x86の主流開発パスから外れます。
私たちの知る限り、コンピューティングをストレージ アレイに重要な形で導入する進行中の試みは他にはありません。
ストレージをコンピューティングに導入
ハイパーコンバージド インフラストラクチャ (HCI) アプライアンスは、外部の共有ストレージ アレイを廃止するという意味において、コンピューティングにストレージをもたらします。
代わりにHCIノード上のローカルストレージが使用され、複数のノードのストレージが統合され、仮想SANに集約されます。この仮想SANへのアクセスはiSCSIなどの標準的なストレージIOスタックを使用して行われ、データへのアクセスにはイーサネットリンクなどを介してリモートノードからアクセスする必要がある場合があります。
したがって、コンピューティングとストレージをこのように密接に連携させることで、ストレージアクセスIOスタックやリモートストレージへのネットワークアクセスが不要になるわけではありません。HCIのメリットは別のところにあります。
インメモリシステム
インメモリ(DRAM)システムは、実行時処理のためのストレージを一切必要としません。データはストレージからメモリにロードされ、そこで使用されるため、ディスク上に保存されている場合よりも大幅に高速なアクセスが可能です。
GridGain と Hazelcast は、インメモリ システムを実行するソフトウェアを製造しているサプライヤーの例です。
GridGainスタック
SAP HANAデータベースもそのようなシステムの1つです。ディスク上のソースデータは、インメモリシステムにロードするために低頻度でアクセスされ、インメモリデータへの変更はディスクに書き出されますが、これも低頻度で行われます。
あるいは、インメモリデータベースへの変更は、ディスク上に保存されるトランザクションログに書き込まれます。クラッシュしたデータベースは、このログから復旧できます。インメモリトランザクションを記録する製品の例としては、Redis、Aerospike、Tarantoolなどが挙げられます。
インメモリ システムは DRAM の使用に制限されており、その結果、実用的なサイズ制限が存在します。
ディスク ドライブにコンピューティングを追加する代替スキームは、DRAM よりも安価に数テラバイトの容量を提供し、ストレージ スタックやストレージ ネットワーク アクセスのオールフラッシュ アレイによって提供されるものとは異なる種類のパフォーマンス向上を実現することを目的としています。
ディスクドライブにコンピューティングをもたらす
Seagate は、このアイデアを Kinetic テクノロジーでほぼ実現しました。Kinetic テクノロジーは、小型プロセッサをディスク ドライブに取り付け、ドライブにオブジェクト アクセス プロトコルとストレージ スキームを追加するものです。
Seagate Kinetic ディスクドライブ
ストレージアクセススタックの処理が簡素化されたことが、この方式の正当性の一因でした。しかし、これらのドライブを利用する上流アプリケーションの登場は遅く、ソフトウェアの難しさに加え、ディスクドライブが依然としてディスクドライブであるため、フラッシュドライブに比べて速度が遅いという問題もありました。
OpenIO Arm-y ディスクドライブ
OpenIO はディスク ドライブに Arm CPU を追加し、オブジェクト ストレージ用のナノ ノードに変換しました。
OpenIOより – Arm CPUシステムを追加したWDCディスクドライブ
同社にはGrid for Appsスキームがあり、戦略責任者のEnrico Signoretti氏は次のように述べている。「HDDナノノードは、従来のオブジェクトストレージのユースケース(アクティブアーカイブなど)には適していますが、x86プラットフォームで既に行っていることをナノノードでも再現したいと考えています。」
Grid for Apps(サーバーレスコンピューティングフレームワーク)のおかげで、画像認識とインデックス作成、パターン検出、データ取り込み時のデータ検証/準備、そしてより一般的にはデータ処理とメタデータの拡充を既に実証しています。適切なCPUパワーがあれば、これらの操作のほとんどをディスクレベルで直接実行し、生データの保存、アクセス、更新中に価値を生み出すことができます。
彼はビデオ監視を応用分野の例として挙げました。「リモートカメラには、すべてのビデオストリームを保存する1つまたは複数のナノノードがあり、ローカルで操作(顔認識、不要な部分の削除など)を実行し、関連する情報(メタデータを含む)のみをコアに送信します。すべてのデータはローカルに保存されますが、関連する情報のみがクラウドに移動されます。」
この方法で運用することで、ネットワーク帯域幅を大幅に節約できると同時に、中央リポジトリから不要なデータをすべて排除できます。その結果、クラウドでの運用が高速化し、ストレージコストも削減されます。これは高度なアプリケーションですが、ゲームチェンジャーとなるでしょう。
同氏は、メディア速度が高速化すればフラッシュベースのナノノードは有望だと語った。「現時点では、ナノノードの HDD は IOPS 不足のため、アプリケーションの範囲が制限されています。
容量重視のアプリケーションにおいて、フラッシュがコスト/GBの面で現実的な選択肢となり次第、サーバーレスコンピューティングフレームワークを活用し、より多くのアプリケーションをデータに近い場所で実行できるようになります。リアルタイムビデオエンコーディング、AI/ML、IoT、リアルタイムデータ分析は、私たちが注視している分野であり、今後数か月以内に詳細をお伝えする予定です。
登録コメント
一般的に、ディスクIOレイテンシがストレージIOスタック処理の時間をはるかに上回る場合、ユーザーはディスクドライブにコンピューティング能力を追加することの正当性を十分に認識していないようです。これはディスクの速度低下を露呈させる一方で、コンピューティング能力を劇的に高速なフラッシュドライブ(SSD)に移すことはより有望に思えます。
ストレージ ネットワークのレイテンシを解消するだけでなく、コンピューティングをストレージに移行することが意味を成す前に、ディスク ドライブのレイテンシも解消する必要があるようです。
これが、コンピューティングからデータへの移行、つまりフラッシュ ドライブ内でのインサイチュー処理に関するこの調査の第 2 部で取り上げる内容です。®