貪欲なCPU:ストレージベンダーはフラッシュをコンピューティングに近づけようと躍起になっている

Table of Contents

貪欲なCPU:ストレージベンダーはフラッシュをコンピューティングに近づけようと躍起になっている

マルチソケット、マルチコアの CPU は要求の厳しい存在です。サーバーのメモリである DRAM から CPU メモリ チャネルを通じて吸い上げるデータに対する需要が膨大です。

このアクセスはナノ秒、つまり10億分の1秒単位で行われます。PCIeサーバーのフラッシュカード、サーバーに直接接続されたSSD、ネットワークアレイに接続されたSSD、ディスクドライブなど、メモリ以外の場所からデータを取得するには、はるかに長い時間がかかり、コンピューティングコアは必要なデータが来るまでアイドル状態を保たなければなりません。

現代の工場では、数十年にわたる大量生産、ジャストインタイム納入、そして受注生産の経験に基づき、あらゆる工場組立プロセスは、必要な部品がすべて必要な時に確実に入手できるように設計されています。工場プロセスの本質は、組立ラインが停止しないこと、複数のラインを同時に稼働できること、そして部品物流プロセスがバランスよく機能し、生産工程の組立ポイントに適切な量と速度で部品を届けることです。

サーバーはデータファクトリーであり、その頂点には、データを計算処理に取り込むという、ごく単純な(概略的には)プロセスがあります。データを計算処理に取り込むには、ディスクやセンサーからサーバーのメモリへ、そしてCPUコアへといった一連の段階があります。高速キャッシュは、メモリの下流にある低速なデータ配信ソースをバッファリングするために使用されます。

しかし、サーバーのコンピューティング効率は飛躍的に向上し、新しい世代のプロセッサ、サーバーの仮想化、現在のコンテナ化によって、サーバーはより多くのアプリケーションを実行できるようになり、コアはコンピューティング サイクルごとにより多くのデータをより迅速に必要とするようになりました。

2 ソケット x 8 コアのサーバーでは、メモリや下流のストレージ インフラストラクチャが一度に提供できる量を超えるデータが必要になることがよくあります。

フラッシュメモリは、この下流インフラストラクチャのどの段階で使用されてもデータIO速度を向上させます。多くの場合、これで十分な効果が得られます。ネットワークアレイにSSDを配置してディスクを置き換えたり、フラッシュキャッシュをアレイコントローラに配置したり、SSDをサーバーの直接接続ストレージ(DAS)スロットに配置したり、フラッシュストレージをPCIeフラッシュカードに配置すれば、サーバーのDASインフラストラクチャにおいてSATAまたはSAS接続のSSDよりもデータアクセスが高速になります。

CPU_PCIe_フラッシュ

DRAM と PCIe フラッシュを備えたサーバー スキーム。

しかし、PCIeカードとメモリバスの間でDRA​​Mへのデータ転送中にデータプロトコル変換が行われるため、この速度でも十分ではない可能性があります。DRAMチップへのアクセスと同じように、DIMM(デュアル・インライン・メモリ・モジュール)を介してフラッシュメモリをメモリバスに直接接続できたらどうなるでしょうか。

  • メモリアクセスレイテンシ - ナノ秒 - 10億分の1秒
  • ディスクアクセス遅延 - ミリ秒 - 1000分の1秒
  • PCIe フラッシュ アクセス レイテンシ - マイクロ秒 - 100 万分の 1 秒
  • フラッシュDIMMのアクセスレイテンシ - PCIeフラッシュより80%低いレイテンシを実現

カナダのディアブロ テクノロジーズは、メモリ チャネル ストレージ (MCS) でこれを実現し、フラッシュ チップおよび SSD サプライヤーのサンディスクと提携しています。サンディスクは、その結果生まれた ULLtraDIMM テクノロジ製品を Huawei、Lenovo、Supermicro などの OEM に販売しています。

CPU_DIMM_フラッシュ

DIMMメモリバスアクセスを備えたフラッシュ

メモリ チャネルは並列アクセスを利用してデータ アクセス速度を向上させます。

15 パーセントの読み取り/書き込み比率での Diablo テストでは、PCIe フラッシュの平均書き込みレイテンシが 105 マイクロ秒であったのに対し、MCS フラッシュの平均書き込みレイテンシは 29 マイクロ秒で、3.6 倍の性能向上が見られました。

MCS方式では、フラッシュDIMMはDRAMと同じメモリ空間に存在します。現在、MCSベースの製品はDDR3インターフェースを採用しています。DDRはDouble Data Rate Type 3、つまり第3世代の略称です。DDR3は、従来のDDR2規格の2倍の速度でデータを転送します。

MCS_in_memory_map

Diablo Technologies の画像。

第4世代DDR規格であるDDR4は、データレートがさらに向上し、モジュールの密度はDDR3モジュールの2倍、電圧要件はDDR3よりも低くなっています。速度向上の可能性は、現在開発中の技術によってDDR3の約2倍にまで達します。

Diablo は、MCS テクノロジーが仮想 SAN (VSANM) ワークロードに適していると示唆しています。

  • 外部ストレージアレイの必要性を排除
  • 高可用性を実現するためにクラスタノードへの非常に高速なコミットを提供する
  • 負荷の高いワークロードでも予測可能なIOPSとレイテンシを実現

永続的なストアであるフラッシュをコンピューティングに近づけることによって、システム内のデータ移動が少なくなり、エネルギー コストが削減されるなど、他の利点もありますが、ここではパフォーマンスの利点に焦点を当てています。

なぜ、いわゆるフラッシュDIMM(フラッシュメモリ)を使う価値があるのでしょうか?なぜすべてをDRAMにしないのでしょうか?それは、DRAMがフラッシュメモリよりも高価であること、そしてNAND技術を採用したフラッシュメモリは不揮発性であり、DRAMとは異なり、電源が切れても内容が失われないからです。メモリスタ技術も同様に不揮発性です。

これは本質的にフラッシュメモリのみのアイデアではなく、不揮発性ストレージとコンピューティングをより密接に結びつけるものです。ビジネスケースが十分に強力であれば、理論上はあらゆる不揮発性メモリをこの方法でDIMMに接続できます。HPが開発中のメモリスタ技術は、将来的にはDIMMベースのメモリバスインターフェースを搭載する可能性があります。

メモリスタは、ReRAM(抵抗変化型RAM)や相変化メモリ(PCM)と並んで、来たるポストNAND時代における有力候補技術です。NANDセルは15~12nm程度に達すると、それ以上微細化できないと予想されています。CPUリソースはコア数の増加などにより継続的に向上し、アプリのコンテナ化によってサーバー効率も向上するため、今後必要となる容量の増加とアクセス速度の高速化を実現するには、後続技術が必要になります。

HPナノストア

HPナノストアのアイデア

フラッシュをコンピューティングに近づけるというトレンドは、ストレージをコンピューティングに近づけるという長期的なトレンドの最新の反復です。HPは2年前にNANDフラッシュをプロセッサと同じチップに統合するNanostoreコンセプトを発表しました。

このコンセプトに関する HP Labs の IEEE 論文をこちら (pdf) でご覧ください。

先ほど述べたCPUリソースの改善に関する点は、この論文でさらに詳しく説明されています。「歴史的に見て、テラスケールコンピューティング(10の12乗、つまり1秒あたり1兆回の演算)を達成した最初のコンピュータは1990年代後半に実証されました。2000年代には、その1000倍の性能を持つ最初のペタスケールコンピュータが実証されました。これらの傾向を外挿すると、最初のエクサスケールコンピュータ(1秒あたり100万兆回の演算)は、2020年代後半に登場すると予想されます。」

ストレージは、より多くのデータをより速くコンピューティングに提供したいという需要がますます高まっています。消費電力の削減やITシステムにおけるデータ移動の削減といった付随的なニーズもありますが、最も重要なのはパフォーマンスです。これを実現するには、ストレージを空間的にもパフォーマンス的にもコンピュータのプロセッサコアに近づけ、IO待機時間を削減する必要があります。IO待機時間は、常に解決されては再び発生するという古典的な問題です。ナノストレージとメモリスタは、この長年の課題を解決するための最新の試みの一つに過ぎません。®

Discover More