分析スタートアップ企業の Datos IO は、バックアップ業界のテスラであり、分散アプリケーションのデータ保護を再設計し、他社では到底解決できない特定の問題を解決するコードを備えたハイエンドの顧客に重点を置いています。
2016年6月の発売から6ヶ月が経ち、分散型データベースバックアップ製品RecoverXの有料顧客は10社に達しました。RecoverXについては、こちらとこちらで既に解説しています。このソフトウェアはセマンティック重複排除機能を武器としており、ここではこの点について見ていきます。
RecoverXは、オンプレミス、Amazon Web Services(AWS)、Google、その他のクラウドで稼働する非リレーショナルデータベースをバックアップします。RecoverXバージョン1.5は、Google Compute EngineとGoogle Cloud Storageをサポートします。Google Cloud Platformユーザーが、IaaSおよびPaaS環境に展開された非リレーショナルデータベース(NoSQL、クラウド、グラフなど)でホストされている次世代アプリケーションを保護するのに役立ちます。
10社は、金融サービス、小売、eコマース、メディア・エンターテインメント、ヘルスケア、そしてモノのインターネット(IoT)を代表しています。Ayla NetworksはIoTの顧客であり、Datos IOはAyla NetworksのAWSクラウドインフラストラクチャと非リレーショナルデータベースのバックアップを担当しています。Datos IOは、スクリプトベースのバックアップがコストと拡張性の欠如から不適切であると判断し、RecoverXを買収しました。
この小売顧客は、Fortune 100 にランクインする大型ホームセンター小売企業で、コンプライアンス基準を満たし、運用効率を高めるために、既存の e コマース アプリケーションをオンプレミス データ センターから Google Cloud Platform (GCP) を使用してパブリック クラウドに移行しました。
カサンドラDBAイシンダー・シンのツイートは、Datos IOがホームデポを顧客として獲得したかどうかを尋ねている。
もう一つの顧客は Barracuda Networks です。
Datos IOは次のように述べています。「RecoverXは、負荷に応じて自動的にスケールアップ可能な柔軟なコンピューティングサービスを基盤とする次世代スケールアウト型データ保護アーキテクチャであるConsistent Orchestrated Distributed Recovery(CODR)を基盤としています。CODRは、メディアサーバーへの依存を排除し、ファイルベースおよびオブジェクトベースのセカンダリストレージとの間でデータを並列転送します。CODRにより、RecoverXはスケーラブルなバージョン管理を実現し、企業は任意の間隔と粒度でデータを保護およびバックアップできます。運用リカバリとテスト/開発の両方のユースケースにおいて、ワンクリックでオーケストレーションされた修復不要のリカバリを実現するほか、業界初のセマンティック重複排除により、セカンダリストレージコストを最大70%削減できます。」
では、セマンティック重複排除とは何でしょうか?Datos IOのウェブページからダウンロードできるPDFは、Datos IOの共同創業者であるCEOのTarun Thakur氏とCTOのPrasenjit Sarkar氏を含む複数の著者による研究論文です。その概要では、次世代の最終的に一貫性のあるストレージシステム(NECST - CassandraやMongoDBのような非リレーショナルデータベースを想定)のバックアップとリストアの問題について議論し、「解決策として、対象システム内に保存されているデータの深いセマンティック理解」を提案しています。
この論文では、「現代のシステムでは、単一のマシン内のディスク (または SSD) にデータを保存するのではなく、複製された形式で多くのマシンにデータを分散させ、複製は結果的に一貫性のある方法で実装されます...」と説明しています。「私たちが概説するように、中心的な問題は単純です。つまり、ツールとシステムが、これらの複雑で多様な分散型 NECST システムの下にあるデータの効率的で一貫性のある論理的なビューを簡単に取得できないということです。」
そして彼らは言う。
成功の鍵は、これらの新しいストレージシステムに保存されるデータの深い意味的理解にあると私たちは考えています。I/Oトラフィックを監視・検査し、その意味(クォーラムに達したかどうか、特定のデータ項目がどのように複製されたかなど)を再構築することによってのみ、重要なNECST管理機能を効率的かつスケーラブルに実装できます。
したがって、セマンティック重複排除の最初の特徴は、アプリが非リレーショナル データベースであることに対応していることです。
セマンティック理解、つまりデータベース操作の構造理解の属性には次のものがあります。
- クォーラム調整– 従来のストレージでは更新がいつ行われたかは比較的容易に把握できますが、更新がストレージシステムにいつコミットされたかを把握するという単純な作業でさえ困難です。NECSTシステムでは、システム内に保存されているデータに関心を持つツールやシステムが、クォーラムの形成方法、そしてシステム内でデータ項目が安全に複製される方法とタイミングについて、基本的な知識を持っていることが求められます。NECSTレプリケーションプロトコルを包括的に理解することで、バックアップツールは更新の順序を決定し、ストレージの一貫したビューを構築できます。
- 冗長コピーの検出– 冗長性を容易に確認できる従来のストライプ化システムやミラー化システムとは異なり、NECSTシステムではデータコピーがビット単位で同一ではない形式でエンコードされる場合があります。そのため、NECSTバックアップシステムまたはアーカイブシステムは、NECSTシステムを綿密に精査し、論理的に同一のコピーがどこに存在するかを特定する必要があります。これにより、それらのコピーを統合し、ストレージ効率の高いバックアップを実現できます。
- 構成に依存しないバックアップと復元– 分散システムでは、構成変更が頻繁に発生し、新たな需要に対応するためのスケールアップや、障害発生時にシステムの運用を停止するスケールダウンが発生します。NECSTツールは、構成が変更された場合でも、データを保存し、再作成できる必要があります。
Datos IOのCODRソフトウェアは、「対象となるデータベースの完全なスナップショットを取得し、その後、データベースに適用された変更を追跡し、変更の増分バージョンを生成します。」バージョンとは、「スケールアウト型分散データベースのクラスタ整合性のあるスナップショット」です。説明によると、
完全スナップショットと増分スナップショットは、バックアップストレージシステムに並行して転送されます。バックアップストレージシステムは、小規模な環境では単一ノード、大規模な環境ではクラスターに転送されます。バックアップストアでは、CODRはローカルスナップショットのコレクションを処理してバージョンを作成する必要があります。CODRは、統合されたクォーラムとセマンティック重複排除アルゴリズムを実行することでこの目的を達成し、スペース効率の高い単一のデータコピーを生成します。
つまり、CODR には個々のデータベース製品に固有のアルゴリズムが組み込まれている必要があり、セマンティック (操作構造) な知識を持たない新しいデータベース製品を単純に対象とすることはできないということです。
CODR展開図
CODR の仕組みについて Datos IO が説明している内容については、こちらで確認できます。また、ビデオもいくつかあります。
RecoverXは、物理データベースサイズ($/TB)に基づいた容量階層の概念に基づく年間サブスクリプションライセンスを提供しています。6ヶ月間でわずか10社の顧客を獲得したという事実は、価格が安くないことを示唆しており、顧客はDatos IOに切り替える前に、現在のバックアップおよびリカバリ運用にある程度の痛みを我慢する必要があるかもしれません。
なぜこの記事の冒頭で、Datos IOはバックアップ業界のテスラだと表現したのでしょうか?Veeam、Veritas、Dell EMCがバックアップソフトウェア業界のフォード、GM、クライスラーだとしましょう。Datos IOはテスラのように、独自の巧みな手法でバックアップのあり方を再定義し、優れた設計とハイエンド製品の開発に注力することでビジネスを構築していると考えています。(いや、車が炎上したり衝突したりするなんて考えないでください。)
今後、データベースの対象範囲が拡大し、市場で Veeam や Veritas と競合する可能性もあるため、バックアップ業界にとって興味深い時代が到来するでしょう。®