HBLLへのハイウェイ:DRAMとL3間のミッシングリンクを発見

Table of Contents

HBLLへのハイウェイ:DRAMとL3間のミッシングリンクを発見

CPU コアの待機状態を回避するには、サーバー内のメモリと 3 レベル プロセッサ キャッシュ構造の間に新しいキャッシュが必要です。

これが、Piecemakers Technology が台湾の Industrial Technology Research Institute および Intel の協力を得て設計した Last Level Cache チップのポイントです。

データが低速ストレージから高速プロセッサへ移動する際には、中間ストアとキャッシュの層を通過します。これらの層は、スタックの上位層を常にビジー状態に維持するために十分な容量とIO速度を備えている必要があります。容量やアクセス速度が不足すると、上位層がデータを待機することになり、CPUサイクルが無駄になり、アプリケーションの速度が低下します。

Piecemakersのスタッフ、Tah-Kang Joseph Ting氏は、今月初めに開催された国際固体回路会議(ISSCC)で講演を行い、DRAMのレイテンシはDDR世代が進むにつれてシーケンシャル帯域幅が増加してきたにもかかわらず、30nsで停滞していると述べた。彼によると、DRAMのレイテンシとメモリ階層の次の層であるレベル3キャッシュの間には(比較的)大きな違いがあるという。

Objective Analysis の Jim Handy 氏は、これについて次のように書いています。「さらに、プロセッサの内部レベル 3 キャッシュとシステム DRAM 間のレイテンシ ギャップは、隣接するキャッシュ レベル間のギャップよりもはるかに大きくなります。」

彼は、帯域幅と GB あたりの価格の軸によって定義された 2D 空間でストレージとメモリのテクノロジを示す概略図で、Piecemakers チップがメモリ階層にどのように適合するかを説明しました。

DRAM_L3_キャッシュギャップ

赤い矢印はDRAM-L3キャッシュのギャップを示しています

Anandtech のデータによると、Xeon E5-2690 L3 キャッシュのレイテンシは 15 ~ 20 ns だそうです。

Piecemakers の High-Bandwidth Low-Latency (HBLL) DRAM チップのレイテンシは 17ns です。これは、インターリーブされた RAM バンク (それぞれ 32 のバンクにアクセスする 8 x 72 ビット チャネル) と、DRAM インターフェイスではなく SRAM を使用することで部分的に実現されています。

そこで私たちは、DRAM がこの HBLL キャッシュにデータを送り、次に L3 キャッシュにデータが入り、次に L2 キャッシュにデータが入り、そして実際の CPU にデータが送られ、CPU がより一生懸命働けるようになることを想定しています。

インテルはピースメーカーズの研究に資金を提供しました。ハンディ氏は次のように述べています。「インテルは、DRAMとSSDの速度差を3D XPointメモリで埋めることに関心があるだけでなく、ピースメーカーズのHBLLやそれに類似したもので赤矢印のギャップを埋めることにも関心があるようです。もちろん、インテルが計画を発表するまでは、確かなことはわかりません。」®

Discover More