オーダーメイド:Facebookのコールドストレージデータジッグラトの内側

Table of Contents

オーダーメイド:Facebookのコールドストレージデータジッグラトの内側

分析Facebook は古い写真を特別な冷蔵倉庫に保管しています。この倉庫には、MAID (アイドル状態のドライブの大規模アレイ) でいっぱいのラックを収容する Zucky ジッグラトがあり、消失訂正符号とアンチビットロット スキャンを使用してストレージ密度を高め、電力コストを削減するとともに、テープよりも高速なアクセスを提供しています。

Facebookでは毎日約20億枚の写真が共有されており、その数は増加傾向にあります。しかし、Facebookは共有率を公表しておらず、写真は即座に利用可能である必要があります。そのため、Facebookは写真の保管​​のために2つの専用施設をゼロから構築しました。

ザッカーバーグのジッグラトは、オレゴン州プリーンビルとノースカロライナ州フォレストシティのデータセンターに設置されています。ラックには480台の4TBコンシューマーグレードのディスクドライブが積まれており、1ラックあたり1.92PBの容量を誇ります。ラックは約520台で、1エクサバイトのデータを格納できるホールに収容されています。ラックの重量も非常に重く、1台あたり1,100kgにもなります。

この設計は OpenVault OCP 仕様に基づいており、必要な電力量と、データ損失を防ぐために必要なディスク容量を削減するように拡張されています。

電力削減

冷蔵倉庫にはバッテリーバックアップも無停電電源装置も発電機もありません。これらは古い写真ではなく、重要なライブ制作データの安全性のために必要だと考えられているためです。

全体として、コールド ストレージ ジッグラトには、従来の Facebook データ センターで使用できる電力の 6 分の 1 以下しか装備されていません。

ストレージ ラックでは、ドライブ コントローラー ファームウェアが変更され、これを強制的に実行することで、トレイごとに一度に 1 つのドライブのみに電源が投入されます。

Facebook_コールドストレージ_ディスク_トレイ

Facebook 冷蔵ディスクトレイ

これにより、ストレージノードあたりのファンの数が6台から4台に、電源シェルフが3台から1台に、シェルフ内の電源装置が7台から5台に削減されます。これらの変更により、ラックに必要なOpen Rackバスバーは3台から1台に減ります。

サーバーは必要に応じて電源が投入され、インテリジェントなソフトウェアによって管理されます。このソフトウェアは、データの継続的な検証と再バランス調整を行い、耐久性を最適化します。これにより、ラックの消費電力は従来のストレージサーバーの4分の1となり、ストレージシェルフ用のラックスペースが広がります。

ディスク容量の節約

ここでの計算は、RAIDよりもはるかに少ない容量コストで、実際にはデータのコピーを2つ未満に抑えてデータの耐久性を確保することに重点を置いていました。Facebookは、単一障害点を排除し、システム全体を可能な限り経済的に復旧できるようにしたいと考えていました。

同社は、壊滅的な障害が発生した場合にメタデータ ストアをデータ復旧に使用することを決定しました。この意味で、データは自己記述的です。

リード・ソロモン誤り訂正符号は、消失訂正符号化方式で使用されます。1GBのファイルは10×100MBのチャンクに分割され、リード・ソロモン符号に必要な4つの追加チャンクが加算されるため、1.4GBの容量となります。14個のチャンクのうち4個が失われた場合でも、14個のチャンクが異なる障害領域に保存されている限り、高い統計的確実性で元の1GBファイルを復元できます。

追加の検証レイヤーが存在します。ソフトウェアは整合性を検証するために、チェックサムを継続的に作成、維持、再チェックします。チェックサムのコピーはデータ自体の隣に保存されるため、エラーが検出された場合に迅速に検証し、別の場所に複製することができます。

Facebookは、すべてのドライブ内の全データを調べ、破損を報告するアンチビットロットスキャンも実施しています。ドライブ全体のスキャンには30日かかりますが、エンジニアたちは別のプロセスを用いることで失われたデータを正常に再現できると見積もっています。このプロセスでは、失われた部分を再構築し、施設内の別の場所にある新しいドライブに書き込むのに十分なデータを読み取ることができます。

Facebookは、全体として、再構築にかかる時間を数時間から数分に短縮し、データ保護容量税も削減できたと述べている。

システムは、常に新しい容量が追加されることを前提に、利用可能な容量全体にわたってデータ負荷のバランスを常に考慮します。つまり、新しい容量のために特別なデータ移行を行う必要はありません。

この強力な広告プラットフォームは、ブルーレイ光ディスクや低耐久性フラッシュ(おそらく三層セルを意味する)などの代替メディアも評価しており、さらに耐久性を高めるために複数のデータセンターにファイルを分散することを検討している。

この専用の高速アクセス・コールドストレージは、Facebookの特別なニーズ以外にも適用可能でしょうか?100PB以上に拡張される予定の高速アクセス・コールドストレージが必要な場合は、適用できる可能性があります。

おそらく、OCP OpenVault 仕様は Facebook が自社施設で行ったことを反映するように修正され、同様のニーズを持つクラウド サービス プロバイダーやサプライヤーがそれを利用できるようになるでしょう。®

Discover More