IT 管理者が嫌うのは、次の 1 つのトリックです。「実際には保存されていないものを、保存されているように見せること」

Table of Contents

IT 管理者が嫌うのは、次の 1 つのトリックです。「実際には保存されていないものを、保存されているように見せること」

同じ技術的問題をどう解決するかをめぐり、ライバル関係にある2つのスタートアップ企業の間で議論が巻き起こった。どちらの企業も、相手の技術が十分ではないと主張するだけの十分な理由がある。しかし、彼らは、移動したファイルへのアクセス速度の遅さをどう解決するか、メタデータの保存場所など、興味深い問題を提起している。

ファイルをアーカイブしながらすぐにアクセスできる状態を維持するにはどうすればよいでしょうか。シンボリック リンクを使用するか、メモリ内のメタデータを使用するかについては意見が分かれており、Komprise では前者を使用し、infinite-io ではメモリ内のメタデータを使用しています。

Infinite-io の CEO である Mark Cree 氏は最近、スタブをシンボリック リンクに置き換えることで移動したファイルへのアクセスが遅い問題を解決するという Komprise の考え方に異議を唱えました。

Kompriseの共同設立者、社長兼COOのクリシュナ・スブラマニアン氏は、infinite-ioの主張に対してすぐに反論した。

(回答の一部は簡潔にするために編集されています)。

Mark Cree: Komprise が製品を迅速に市場に投入したことを称賛します。問題は、何と呼ぼうとも、真のデータではない何かが残ってしまうことです。いずれにせよ、次のような問題に直面することになります。

  1. スタブとシンボリック リンク間のスペース節約はほとんど無関係です。
  2. IT管​​理者は、実際にはストレージ上にないデータがストレージ上にあるように見えることを嫌がります。これは、災害発生時のトリアージ(優先順位付け)を非常に困難にします。
  3. スキャンは完了する前に古くなります。
  4. こうしたタイプのソリューションは拡張性が低く、NAS のパフォーマンスが低下します。

1. スタブとシンボリックリンク間のスペース節約

Krishna Subramanian : 彼は要点を理解していないと思います。スタブをシンボリック リンクに置き換えているのは、占有するスペースが少ないからというわけではありません。

顧客がスタブを嫌う理由は2つあります。1つ目は、スタブが独自仕様であるため、各ストレージがスタブを理解できるようにストレージエージェントか、各ストレージへの独自インターフェースが必要になることです。そのため、スタブは移植性が低く、ストレージのアップグレードや移行に伴うスタブのリビジョン管理は悪夢のようなものです。

クリシュナ・スブラマニアン

Kompriseの共同創設者、社長兼COOのクリシュナ・スブラマニアン氏

2つ目の理由は、スタブは静的であり、移動されたデータを指すということです。つまり、データにアクセスするためのマップが1つしかなく、そのマップがスタブ内に存在するようなものです。そのため、スタブが何らかの理由で破損または削除されると、データは孤立してしまいます。そのため、スタブの管理は悪夢のような作業となり、データベースのバックアップが必要になることがよくあります。

Komprise は、動的リンクを使用して、障害に強いオープンで標準ベースのクロスストレージ インターフェイスを作成することにより、これらの問題の両方を解消します。

まず、リンクはファイルシステムが理解できる標準的な構造であるため、独自のインターフェースは必要ありません。リンクを使用するのは、(スタブで使用されるスペースよりも)スペースを節約するためではなく、スタブのような独自の制限されたアプローチを使用せずにデータを透過的に移動するためです。

[Windows] XPオペレーティングシステムの登場以来、SMBとNFSの両方のファイルシステムはシンボリックリンクをサポートしています。この開発により、ファイルシステムが理解・サポートする標準的な構造を使用して、アーカイブデータへのアクセス要求をKompriseに透過的に転送できるようになりました。

第二に、他のスタブベースのアプローチとは異なり、Kompriseではコンテキストをスタブ内に保存しません。これらのアプローチでは、スタブが失われ、移動されたファイルにアクセスできなくなります。Kompriseはコンテキストを内部的に、そしてターゲットストレージ内に保持します。そのため、スタブが削除された場合でも、それが不注意による削除であったと仮定すれば、再作成が可能です。

2: IT管理者は、実際には保存されていないものが保存されているように見えることを嫌う

Krishna Subramanian:全く逆の話を聞きました。IT管理者はデータの所有者ではないため、どのデータをアーカイブするかを決定できず、ユーザーに許可を求めなければなりません。もちろん、ユーザーは自分のデータを移動させたくありませんので、何も移動されません。

Komprise なら、管理者に確認する必要はありません。IT ポリシーに基づいてデータを移動でき、ユーザーはデータにアクセスして表示できるため、必要に応じて操作できます。

人間やユーザーに何かを頼ると、必ずうまくいかないことが分かりました。このアプローチは、この重大な障害を回避します。

当社では、ファイルが間接的であることを視覚的に示すか、完全に透明にするかのオプションを提供していますが、ほぼすべてのお客様は完全に透明なパスを選択しています。

3: スキャンが完了する前に古くなる

Krishna Subramanian:はい、そうです…ホットデータに関してはそうです!私たちの成功は、常に適切なテクノロジーをそれぞれのユースケースにマッピングすることで実現してきました。例えば6か月以上前のデータ(プライマリストレージ上のデータの平均50%は1年以上前のデータです)を移動する場合、バックグラウンドで実行されるアダプティブスキャンを実行することで、アクティブな作業を妨げずにファイルサーバーに影響がないことがわかっています。

また、スキャン期間中に閾値を超えたファイルは全体の0.01%程度で、現在6ヶ月経過していることも判明しました。これらのファイルは次回のスキャンで検出し、その時点で移動します。コールドデータを扱っているため、リアルタイム性は不要であり、これによりソースファイルサーバーへの不要なオーバーヘッドによる混乱を回避できます。もしデータをフロントエンド化し、ホットデータへのメタデータアクセスを提供していたら、このアプローチは機能しなかったでしょう。

ホットデータの管理は、NetApp、Pure、EMCなど、ホットデータの管理に精通した既存企業に委託しています。当社は、お客様に高く評価されているリスク軽減アプローチを提供しています。

4: こうしたソリューションは拡張性が低く、NASのパフォーマンスを低下させる

Krishna Subramanian:彼は、データベースなどの中心的なボトルネックによって制限され、スケーリングが難しい従来のクライアント サーバー ソリューションについて考えているのかもしれません。

私たちは、中央のボトルネックのない完全分散型スケールアウトアーキテクチャを採用しています。また、バックグラウンドで実行されるため、NASのパフォーマンスが低下することもありません。従来のアプローチはフォアグラウンドで実行されるため、アクティブな利用を妨げることがありました。

私たちはデータの家政婦のようなものです。夕食を食べている間に家政婦に食器を片付けてもらいたくないのと同じように、Komprise はファイル サーバーがアクティブに使用されているときやネットワークがアクティブに使用されているときは、適応的に後退し、バックグラウンドで邪魔にならないように動作します。

当社の典型的な顧客は、ファイル サーバー全体にわたって数億個のファイルを含む 10,000 以上の共有にわたるペタバイト単位のデータの管理を行っており、顧客が特別な QOS ポリシーを設定したり、環境を管理したりすることなくシームレスに拡張できます。

El Reg : infinite-io はメタデータの価値をどのように定義しますか?

Mark Cree: Kompriseはメタデータの価値を完全に見落としているようです。バックエンドのメタデータスキャンモデルには欠陥があり、データの呼び出しに時間がかかります。メタデータはユーザーがファイルにアクセスするたびに常に変化するため、静的スキャンは完了する前に時代遅れになってしまいます。ファイル移行では誤検知が多く発生し、アクティブなファイルが移行されてから元に戻す必要があるため、ファイルのピンポン状態が発生する可能性があります。

メタデータについて

Krishna Subramanian:繰り返しますが、彼は完全に的外れです。Infinite-ioのように、ホットメタデータとコールドメタデータを含む全てのメタデータを管理しているのであれば、彼の言うことは理にかなっています。彼のソリューションに関しては、彼の言うことは確かに正しいです。しかし、私たちには当てはまりません。

Infinite-ioはメタデータを作成するために初期スキャンを実行します。スキャン中に、ネットワーク上でメタデータの変更がないかスニッフィングしていると考えられます。その過程でメタデータサーバーが作成され、これがすべてのデータトランザクションの中心点となります。Infinite-ioがダウンした場合、お客様はすべてのデータにアクセスできなくなります。Infinite-ioはお客様のデータ、つまりホットデータとコールドデータを管理していることになります。これは非常にリスクの高いアプローチであると考えています。

Mark Cree:私たちの意見では、メタデータの真の価値は、膨大な量のデータの管理を可能にし、アクティブ データとアーカイブ データの両方の増加に合わせてパフォーマンスを維持できることです。

クリシュナ・スブラマニアン:根本的に同意できません。ホットデータは、お客様がホットデータ管理のために購入したプライマリストレージで管理すべきだと考えています。プライマリストレージは、すべてのホットデータの巨大なキャッシュであると考えています。時間の経過とともに、データの99.999%はコールドデータになり、それらは大容量ストレージ上に保存されます。Kompriseは、これらのコールドデータすべてを管理し、必要に応じて透過的にデータにアクセス、検索、そして場合によっては復元できる手段を提供します。

コールドデータへのアクセスはKompriseにキャッシュされるため、高速アクセスが実現します。アクセスがカスタムポリシーの上限を超えた場合、データはプライマリストレージにリハイドレートされます。このアプローチにより、プライマリストレージをホットデータのキャッシュとして活用できます。その結果、大規模で超高速かつ高価なハードウェアは不要になります。

El Reg :では、メタデータをどのように処理するのですか?

Mark Cree: Infinite-ioでは、異なるアプローチを採用しています。設置済みのストレージの前にネットワークスイッチのように設置します。当社の製品は、インストールされているすべてのアプリとハードウェアに対して完全に透過的であるため、インストールとメンテナンスが容易です。すべてのメタデータを一度スキャンし、その結果をプラットフォーム内のDRAMに保存します。

マーク・クリー

マーク・クリー

メタデータは、ネットワークアクティビティを監視することで最新の状態に保たれます。実際、初期スキャンの実行中にネットワークからメタデータを学習します。メタデータはすべて取得済みであり、ネットワークトラフィックを監視することでリアルタイムで継続的に更新されるため、スタブは必要ありません。すべてのメタデータの場所を把握しているので、ネットワークレベルでリクエストをリダイレクトするだけです。

Krishna Subramanian:前述の通り、彼らはすべてのデータをフロントエンドで管理しています。もしダウンした場合、顧客のデータへのアクセスはどうなりますか?復旧後、古いメタデータを新しいメタデータに置き換えるのにどれくらいの時間がかかりますか?

私はこれを、家政婦が「あなたの家を完璧に整頓してきれいに保ちます。ただし、一つだけ条件があります。私はあなたとあなたの家族にいつ起きて、いつ食事をするかを指示します。あなたがするすべてのことを見守ります。あなたがこれらを守っていれば大丈夫です」と言うようなものです。

この家政婦を雇いますか?

これが、Acopia のようなソリューションが抱えていた問題であり、ネットワーク レベルのデータ管理が機能しなかった理由です。

El Reg :これはデータ アクセス時間とパフォーマンスに影響しますか?

Mark Cree:メタデータ要求はほとんどのワークロードの80%以上を占めるため、メタデータをDRAMに格納することで、背後にあるNASシステムのパフォーマンスを劇的に向上させることができます。メタデータは平均65マイクロ秒でネットワーク経由で直接提供され、背後にあるNASシステムの負荷を完全に軽減します。現在最も高速なSSDベースのNASシステムは、一般的に500マイクロ秒からミリ秒単位でメタデータ要求に応答します。つまり、NetAppの性能を5倍から10倍高速に見せることができるのです。

Krishna Subramanian:まさにその通りだと思います。かつては、メタデータのチャタリングがNASファイルサーバー(FS)を駆逐していました。多くの「メタデータ」サーバーがそのチャタリングを吸収し、FSが本来の業務、つまりファイルの読み書きに集中できるようにしていました。しかし、今ではそのようなサーバーは存在しません。FSは高速SSDでこの問題を解決しました。Infinite-ioはさらに高速なSSDを搭載しているかもしれませんが、コストがかかり、ホットデータの経路になってしまいます。なぜ顧客は高価なプライマリストレージを購入し、その前に高価なネットワーク層メタデータサーバーを設置するのでしょうか?

El Regパブリッククラウドへのアクセスという観点もあるとおっしゃっていますが、それは何でしょうか?

マーク・クリー:特に興味深いのは、クラウドに移行したデータです。私たちはお客様に効果的なクラウド移行ポリシーを作成するためのツールを提供しています。これにより、クラウドに移行したデータを呼び戻す必要はほとんどなく、通常は5%未満です。

さらに良いことに、リコールが必要となる可能性のある5%のうち、80%はメタデータのリクエストです。このような場合、Infinite-ioはネットワーク上でメタデータリクエストを傍受し、DRAMから応答します。これにより、クラウドはフラッシュアレイよりも高速になり、クラウドからの実際のファイルリコールが必要になることはほとんどありません。パブリッククラウドに移行する場合、これによりファイルの入出力料金が大幅に削減されます。

バックエンドでデータをスキャンするシステムは、パフォーマンスを向上させる手段がありません。多くの場合、逆効果となり、継続的なスキャンによってシステム全体のパフォーマンスが低下します。

Krishna Subramanian:私にはあまり意味が分かりません。しかし、この段落は私たちがこれまで述べてきたことを確かに示しています。移行したコールドデータはほとんどアクセスされません。(実際、彼らの5%という数字はかなり高いように思えます。私たちはそれほど高い数字を見ていません。)

めったにアクセスされないデータへのアクセスを高速化するために、高価な高速ハードウェアリソースを導入し、既存のインフラストラクチャを危険にさらすのは、私には全く理にかなっていません。さらに、レイテンシはメタデータへのアクセスだけに関係するものではありません。より大きな問題はコンテンツへのアクセスに関係しており、無限のI/Oではこの大きな問題は解決されません。

Kompriseは、クラウドからアクセスされたデータをキャッシュし、クラウドへの追加アクセスを削減することでコストを削減し、オンプレミスのアクセスレイテンシを実現します。カスタムポリシーに基づいてデータをプライマリストレージにリハイドレートすることで、アクセスレイテンシをさらに改善し、クラウドからの送信コストを削減します。

バックエンドでデータをスキャンするシステムはパフォーマンスを向上させず、むしろ速度を低下させるという彼らの主張は、そのシステムが適切に設計されていない場合、つまりアクティブなデータ利用を妨げている場合、あるいは同じシステムが単にデータをスキャンして何もせずに待機している場合に限り、正しいと言えます。私たちは、オープンスタンダードを用いてストレージ全体でコールドデータの処理を非侵入的に最適化する、適応型分析主導のスケールアウト型データ管理ソリューションを提供しています。

Discover More