IBM は、より安価な QLC フラッシュ チップから TLC クラスの耐久性とパフォーマンスを引き出すことに成功し、同社の FlashSystem 9200 オールフラッシュ アレイの顧客がその恩恵を受けていると述べています。
IBM フェロー兼フラッシュ ストレージ製品担当 CTO の Andy Walls 氏によると、これを実現できるのは他社にはないそうです。
クアッドレベルセルフラッシュは、トリプルレベルセルフラッシュよりも製造コストが安く、ストレージ密度も向上しますが、パフォーマンスと耐久性は犠牲になります。QLCは16の状態を用いて4ビットのデータを保存します。これには16段階の電圧レベルが必要となり、IO操作が長くなり、TLCよりもデータの読み書きに時間がかかります。また、書き込み消去サイクルで表される耐久性も短くなります。
この問題を解決するため、IBMは独自のFlashCoreモジュール(FCM)ドライブ用コントローラーを開発しました。このコントローラーは、フラッシュブロックの健全性と寿命を監視・分類します。最も頻繁に書き込まれるデータブロックは、最も健全なフラッシュブロックに配置されます。
アンディ・ウォールズ:QLCでは16,000回の書き込み消去サイクルを実現しました
「当社の研究者たちは、フラッシュブロックの健全性を早期に判断できるアルゴリズムを開発しました」と、ウォールズ氏は今月初めに開催されたムーア・インサイツ・アンド・ストラテジーの炉辺談話で述べた。「これを早期に把握することで、最も変化の激しいデータを最も健全なブロックに配置し、変化の少ないデータを健全でないブロックに配置することができます。これにより、耐久性が約2倍向上します。」
パフォーマンスの限界を克服するために、私たちはスマートデータ配置技術を開発しました。そのため、フラッシュメモリの開発初期段階では、これをSLC(Silicon-Lock-Construction:ストレージ容量制御)と定義していました。SLCであるため、デバイス容量の約20%をSLCのみで保持できます。内蔵の圧縮機能を使用すると、3:1の圧縮率が得られます。なんと、容量は60%にも相当します。大量のデータを保持しながら、SLCを必要最低限に抑えることで、パフォーマンスが向上します。
QLCへの移行に伴い、スマートデータ配置を採用し、最も多く読み込まれるデータを最も高速なページに配置します。これらの機能を組み合わせることで、QLCの悪影響を克服することができます。
SSDは論理的にはフラッシュブロックで構成されています。フラッシュブロックはページで構成されており、ページはSSDで読み取ることができる最小の要素(セルの集合)です。
「TLCでは、SSDをテストして1万8000回の書き込みと消去サイクルを達成しました。QLCでは1万6000回の書き込みと消去サイクルを達成しました。他社ではこのような結果は出せません。これは1日あたり2回のドライブ書き込みに相当します」とウォールズ氏は述べた。
通常のQLCの書き込み消去サイクルは約1,000回です。オーバープロビジョニングによってこの数値は向上しますが、IBMの16,000回というレベルには遠く及びません。
SCM、計算ストレージ、コンポーザビリティ
ウォールズ氏は炉辺談話の中で、ストレージクラスメモリ(SCM)と計算ストレージについて触れました。FlashSystem 9200 FCMにはホストCPUの負荷を軽減するオンボードアクセラレータが搭載されていることを指摘し、その機能拡張について展望を語りました。
「今日ではサーバーとストレージが存在します。SSDにFlashCoreモジュールなどのアクセラレーターを搭載し、圧縮やシンプルな検索など、AI機能も利用できます。必要なデータだけを(サーバーのCPUに)取り込めば、はるかに効率化できます。」
FlashSystem 9200 は、重複排除などの機能のメタデータを保持し、メタデータへのより高速なアクセスを提供するために使用される SSD 形式の Intel Optane もサポートしています。
ウォールズ氏は、SCMが、次世代のCXLバスを介してサーバーからアクセスされる外部メモリ(DIMM)として構成されると予測しています。これによりメモリのコヒーレンスが確保され、SCMをサーバーDRAMと組み合わせることが可能になります。ウォールズ氏は次のように述べています。「CXLバスは…全く新しいアーキテクチャの領域を切り開きます。ほぼコンポーザブルなシステムを実現し、即座にサーバーを解体して新しいサーバーを構築できます。」
The Registerは、半導体業界アナリストのObjective Analysisのジム・ハンディ氏にインタビューを行い、ハンディ氏はこの偉業について次のように述べている。「より洗練されたコントローラーは、常に少ないリソースでより多くの成果を上げることができるようになるでしょう。最低レベルでは、これはECCの向上(BCHからハミング、そしてLDPC*への移行)、データ配置の改善、圧縮、そして最終的には各NANDブロックの品質を認識し、それに合わせてデータを管理するシステムを意味します。IBMは今、その段階に到達しているようです。」
非常に役立つのは、NANDメーカーが耐久性テストをしたくないため、非常に保守的に仕様を定めていることです。耐久性テストにはかなりの時間がかかります。チップの仕様をいかに保守的に定めているかを示す例として、私が執筆に協力したSNIAの古い文書があります。そこには、Fusion-ioによって測定された優れた耐久性データが記載されていました。[図2をご覧ください] 両ベンダーとも10万サイクルと規定されていたにもかかわらず、一方のベンダーでは約300万回のプログラム/消去(P/E)サイクルを経た後、もう一方のベンダーでは約700万回を経た後に、ビットエラー率が10 -6 に上昇しました。
QLCテクノロジーが企業に飛躍をもたらす
IDC のエンタープライズ インフラストラクチャ プラクティス担当リサーチ バイスプレジデント Eric Burgener 氏は、The Register に次のように語っています。「QLC に関する 2 つの主な問題は、耐久性と書き込みパフォーマンスの低下です。これらの問題は、ソフトウェア/ファームウェア、または何らかの書き込みアフィニティ (つまり、すべての書き込みが、VAST Data のようにストレージ クラス メモリなどの耐久性の高いソリッド ステート メディアの小さなレイヤーに送信され、その後、書き込みとガベージ コレクションを最小限に抑える方法で QLC にデステージされる) によって回避できます。これにより、QLC の経済性がエンタープライズ ストレージにさらに浸透します。」
Pure StorageとNetAppは既にQLCを採用したエンタープライズ・ストレージ・システムを発表していますが、これらは必ずしもIBMの9200(プライマリ・ストレージにより重点を置いている)と同じ種類のワークロードを対象としているわけではありません。今後、QLCを採用したシステムは確実に増えていくでしょう。Pureのシステム(FlashArray//C)は、NetAppのFAS500fと同様に、書き込み負荷の低いセカンダリ・ワークロード(バックアップ、テスト/開発、DR)を対象としています。現時点では、書き込みコアレッシングなどの書き込み最小化技術を用いることで、QLCは一般的な5年のエンタープライズ・ストレージ・ライフサイクルを満たすことができますが、Pureのアレイに見られるような機能強化や、サーバーベースのソフトウェア定義ストレージ・プラットフォームの普及により、システムの耐用年数を5年を超えて延長するための、無停止の複数世代にわたる技術更新がより広く実現可能になっています。QLCが、書き込み負荷の高いエンタープライズ・ストレージ環境で、5年よりもはるかに長い期間にわたって引き続き有効であるかどうかは、今後の動向に注目したいところです。ベンダーはソリッド ステート メディアへの書き込み効率を継続的に改善していくため、QLC ではこれが問題にならないだろうと推測します。
IDC のアナリストは、2 年以内に「XLC (ペンタレベルセル) メディアで構築されたセカンダリ ストレージ AFA が登場し、1 GB あたりのコストがさらに下がる」と予想していると述べています。
少しの努力で大きな成果が得られる
Objective Analysisのハンディ氏は、NANDは「『ジャスト・ソー』に書き込めば長持ちする。オーバープロビジョニングは非線形の耐久性向上をもたらす。フラッシュメモリを少し追加するだけで耐久性が大幅に向上し、さらに追加すればその数値は劇的に向上する。これにはコストがかかるが、IBMの場合、その価値はあるようだ」と指摘した。
彼は次のように述べました。「耐久性を高めるには、コントローラーの改良、メディアの理解度向上、そして十分なオーバープロビジョニングという3つのメカニズムがあります。IBMはQLCでこれら3つをバランス良く提供することで、P/E 16,000という耐久性を実現できたのではないかと思います。おそらく、TLCからQLCへの移行で節約した資金で、この改善を補っているのでしょう。フラッシュメモリへの投資を減らし、コントローラーと特性評価への投資を増やすべきです。」
「テクノロジーの先駆者が存在する場合、その成果は最終的にはより低いレベルにまで浸透する。それは単に、時間が経つにつれてコストが削減されるからだ。
「特性評価は人的関与が大きく、非常にコストがかかることから、実施する企業はほとんどないと思われますが、IBMが使用している他のすべての技術は、最終的には日常的なデータセンターSSD、そして最終的にはクライアントSSDにも採用されるはずです。」®
* データ破損を防ぐために使用されるさまざまな代数およびグラフベースのコードエンコード手法。