HPCクラスター全体でメモリを構成できますか?はい、できます。

Table of Contents

HPCクラスター全体でメモリを構成できますか?はい、できます。

GigaIO と MemVerge は、サーバーのクラスター全体でメモリを構成できるようにする共同ソリューションを開発しており、一部のノードでは実行中のタスクを実行するためのメモリが不足している一方で、他のノードでは余裕容量があるという、高性能コンピューティング (HPC) における厄介な問題の 1 つに対処しています。

コンポーザブルメモリをサポートする GigaIO-MemVerge スタックの組み合わせです。

コンポーザブルメモリをサポートするGigaIO-MemVergeスタックの組み合わせ

GigaIO の FabreX 相互接続ファブリックと MemVerge のメモリ仮想化プラットフォームを組み合わせた共同ソリューションは、今週の Dell Technologies HPC Community オンライン イベントで説明され、CXL 相互接続のバージョン 2.0 をサポートするハードウェアの提供が期待されています。

GigaIOのFabreXはPCIeをベースとしており、同社によればラックスケールのコンポーザブル・インフラストラクチャ・ソリューションです。CPU、GPU、FPGA、ASIC、ストレージなどのリソースをノードクラスター全体でオーケストレーションすることが可能です。このファブリックはダイレクトメモリアクセスをサポートしており、例えばノード間でCPUとGPU間の直接データ転送が可能です。

「1台のサーバーで処理できる範囲をはるかに超えるシステムを構築できます」と、GigaIOのグローバルセールス担当CTO、マット・デマス氏は説明する。しかし、彼はこう付け加えた。「今日では、ラック内のメモリを除くすべてがコンポーザブルです。」

ここでMemVergeのMemory Machineソフトウェアが登場します。これはメモリとアプリケーション間の抽象化レイヤーとして機能します。DRAMとIntelのOptaneなどの永続メモリ(PMEM)の両方を仮想化し、透過的な階層化を備えたソフトウェア定義メモリのプールを作成します。アプリケーションからは従来のメモリのように見えます。

覚えておくべき重要な点は、IntelのOptane DIMMは標準メモリDIMMよりも大容量でありながら、1GBあたりのコストはDDR4の半分であるということです。OptaneはDDR4よりもレイテンシは高くなりますが、より大きなメモリスペースを必要とするアプリケーションに提供する際に役立ちます。

「ハードウェアの利用における最大の問題は何でしょうか?」とデマス氏は尋ねた。「多くの場合、メモリの量が適切でないことが原因です。メモリが多すぎるか、不足しているかのどちらかです。」

FabreX と MemVerge を組み合わせることで、「一部のアプリケーションにメモリを構成することが可能になり、アプリケーション側はそれについて何も認識しなくなります」と同氏は付け加えた。つまり、メモリの一部が物理的に別のノードに配置されていても、アプリケーション側は連続したメモリ空間を認識するだけになるということだ。

「DRAMやPMEMを使用することもできますが、廃棄されるはずだった古いサーバーを再利用して、そのメモリを活用することも可能です」とデマス氏は語った。

MemVerge のビジネス開発担当副社長、バーニー・ウー氏は、同社の Memory Machine ソフトウェアは「カーネル上で実行され、HPC アプリのすぐ下に挿入される」ため、透過的なメモリ サービスが提供され、メモリ呼び出しを傍受して仮想化メモリを提供する、と述べた。

Memory Machine は、アプリケーションからのメモリ呼び出しをプロファイリングすることでその魔法を発揮し、DRAM と PMEM 間でデータを移動して最適なパフォーマンスを実現すると同時に、PMEM を使用してアプリケーションに使用可能なメモリを拡張します。

「多くのHPCアプリケーションはすでに大量のメモリを使用していますが、永続メモリにデータを保存することでパフォーマンスを大幅に向上できることが分かりました」とウー氏は述べた。「PMEMを使用する場合、お客様はDRAMのコスト削減を望む場合があり、場合によってはDRAMと同等のパフォーマンスが得られることが分かりました」と同氏は付け加えた。

Memory Machine がすでにサポートしているもう 1 つの機能は、分散 HPC アプリケーションのメモリ チェックポイントです。

  • PCIe 6.0の最終仕様が発表:64 GTpsのリンク速度が実現へ…2023年に製品が登場
  • 欧州、シリコン独立プロジェクトの第1フェーズを完了
  • Graviton 3: AWSは最新のカスタムハードウェアでシリコンの優位性を獲得しようとしている
  • DRAM、積み重ね可能:SKハイニックスが819GB/秒のHBM3技術を発表

「多くのアプリは長時間実行やフォールトトレランスを想定していませんでしたが、アプリ全体の状態を透過的にチェックポイント化し、再起動できるようにすることができます。また、リバランスが必要な場合は、(アプリケーションを)別のノードに移動することも可能です」とウー氏は述べています。

Demas 氏は、GigaIO と MemVerge の組み合わせにより「CXL が提供する機能の多くを備えたソリューションが生まれる」とし、CXL 2.0 では「さらに改善され、誰もが求めているソリューションが提供される」と述べた。

CXL 2.0 は、既存の CXL 1.0 と同様に PCIe 5.0 をベースにしていますが、ホスト サーバーが他の複数のデバイス上のリソースに接続できるようにするスイッチ ファブリックのサポートが追加されています。®

Discover More