Backblaze は、同社のストレージおよびバックアップ サービスを支える多数のドライブの故障率を詳述した最新のレポートを発行し、数値の最近の傾向に注目するとともに、AI によって故障率を下げられるかどうかを検討している。
ストレージサービスプロバイダーであるBackblazeは、データセンター内の様々なメーカー・モデルのドライブ群全体を監視しています。ブートデバイスを除くと、2024年第2四半期末時点でのハードドライブ数は284,876台に上ります。
しかし、同社では、稼働ユニットが 100 台未満であったり、四半期中に 10,000 日以上のドライブ日数を累積しなかったりするドライブ モデルなど、一部のドライブ モデルを除外し、29 の異なるモデルに分割して 284,386 台のドライブを分析対象としました。
昨今のAIの盛り上がりを考えると、ハードドライブの故障予測にAIを活用できるかどうかという疑問が必然的に浮上するでしょう。実際、予知保全はITをはじめとするエンジニアリング分野において、機械学習のユースケースとして長らく注目されてきました。
ハード ドライブの場合、Backblaze が過去 1 年間の特定のドライブ タイプに関するドライブ統計データを使用して LLM をトレーニングし、そのドライブが推論を使用して特定のデバイスの長期的な障害確率を提供できるかどうかを確認することが考えられます。
しかし、Backblazeの主任クラウドストレージエバンジェリストでありレポートの著者でもあるアンディ・クライン氏によると、AIがあるドライブバリアントについて学習した内容を別のドライブバリアントに適用できるかどうかは明確ではないとのことです。それぞれのドライブバリアントの故障プロファイルは大きく異なる可能性があるためです。クライン氏は、スネークチャート(この記事の最後の画像)を用いてこの点を説明しています。4TB Seagateドライブ(黒線)のデータでトレーニングしたLLMは、4TB HGSTドライブ(紫線と茶線)のどちらかのドライブ故障を予測できるのでしょうか?
Backblaze は今後数か月間、AI/ML を使用してドライブ障害の予測を行うことができるかどうかを調べた研究論文や調査をレビューし、この問題の解明を目指しています。
284k 以上のドライブ エステートに関して、Backblaze は、第 2 四半期の全体的な年間故障率 (AFR) が 1.71% であったことを発見しました。これは、昨年の同時期に報告された 2.28% より低下していますが、今年の第 1 四半期の 1.41% より上昇しています。
「前四半期比の増加は少々意外だったが、AFRの四半期ごとの変動は予想される」とクライン氏は指摘した。
Backblaze は、12TB HGST ドライブ (HUH721212ALN604) が第 2 四半期に AFR 7.17% に達し、懸念を引き起こしたと報告しています。
クライン氏によると、このデバイスの四半期ごとの故障率は異例だが、約1年前から発生している。その結果、この機種の生涯AFRは0.99%から1.57%に上昇しており、同社は今後の動向を注視している。
もう一つの注目すべき点は、2つのドライブモデル(どちらもSeagate製品、14TB ST14000NM000Jと16TB ST16000NM002J)が四半期中に故障ゼロだったことです。ただし、Backblazeで稼働しているドライブの数は比較的少ないです。
Backblaze は、現在も生産現場で使用されている最も古いデータ ドライブ モデルは 4TB Seagate (ST4000DM000) だが、このドライブ上のデータは今後 1 ~ 2 四半期で新しい (おそらく大容量の) ドライブに移行される予定であると報告しています。
しかし、現在も稼働している最も古いデータドライブは、4TBのHGSTドライブ(HMS5C4040ALE640)で、第2四半期末時点で9年11ヶ月23日間稼働していました。このドライブが格納されているBackblaze Vaultは現在、移行中です。
クライン氏によると、Backblaze がこれらすべての統計情報を収集する目的は、特定のドライブの経時的な障害プロファイルを作成し、企業の交換および移行戦略に役立てることです。
以下のグラフは、2024年第2四半期末時点で少なくとも100万日の運転日数を蓄積した稼働中のドライブ モデルの生涯 AFR の変化を示しています。
最初のグラフは、平均使用期間が60ヶ月以下の14種類のドライブについて、平均使用期間(月)と年間故障率をプロットしたものです。2つ目のグラフは、平均使用期間が60ヶ月を超える9種類のドライブを示しています。この区分は、エンタープライズクラスのハードドライブの一般的な保証期間である60ヶ月以上を対象としています。
最初のグラフでは、象限IのドライブはAFRが1.5%未満であり、Backblaze社では良好なパフォーマンスと評価されています。一方、象限IIのドライブは故障率が1.5%を超えていますが、依然として妥当な水準です。象限IVのドライブは比較的新しいため、故障プロファイルが確立し始めたばかりです。象限IIIにはドライブがありませんが、一部のドライブモデルでは初期段階で高い故障率を示すことがあるため、心配する必要はありません。
2 番目のグラフでは、ドライブが 4 つの象限すべてに分散しており、象限 I は以前と同様にパフォーマンスが良好なドライブを表していますが、象限 II と III は「心配する必要があるドライブ」であり、象限 IV モデルは今のところ良好に見えます。
しかし、経時的な故障率の変化をより分かりやすく示すため、Backblazeは新しいグラフを作成しました。ご覧の通り、ヘビ型のグラフです!これは、60か月以上経過した9つのモデルについて、それぞれの生涯故障率を経時的に表したものです。グラフが分かりやすくなるよう、24か月から開始しています。
結果によると、平均年齢が 60 か月を過ぎると、さまざまなタイプが象限 I または象限 II に分類され、2024 年第 2 四半期の時点で 9 つのモデルのうち 5 つが象限 I に該当します。
ほぼ垂直の線(赤、茶、紫)は、故障率が経年変化に伴って一定であることを示しています。一方、青と灰色の線は、経年劣化に伴い故障率が上昇しているドライブモデルを表しています。
- 地球温暖化への備えとして、Backblaze が高温ドライブの追跡を開始
- 45 Drives、Linux搭載のミニPCとワークステーションをコンピューティングラインナップに追加
- GoogleがGCPを放棄する不満を持つ顧客へのエグレス料金を免除する理由
- Backblazeクラウドストレージにイベント通知機能が追加
それにもかかわらず、クライン氏は、青い線 (Seagate ST800DM002) は最初の 60 か月間の故障率が一貫して 1% 前後であったため、通常の故障プロファイルを最もよく表していると述べています。
第2象限に分類されたドライブモデルのうち、3つは類似した故障プロファイルを示しており、ライフサイクルのある時点で故障率が加速するにつれて曲線が右に曲がり始めました。黒い線は、クライン氏によると、他のドライブに「積極的に移行」され、置き換えられている4TBのSeagateドライブを表しています。
Backblazeはこれまで通り、Drive Statsデータセット全体を無料で公開しており、誰でもダウンロードして分析することができます。ただし、データを使用する場合は出典としてBackblazeを明記し、データを販売することはできません。®