マイクロソフトはデータウェアハウス戦略において、移動よりもミラーリングを推奨している

Table of Contents

マイクロソフトはデータウェアハウス戦略において、移動よりもミラーリングを推奨している

Ignite Microsoft は、業界の一般的な傾向に反して、Fabric プラットフォームを使用している顧客に、他のデータ ウェアハウスや分析システムからデータをコピーするようアドバイスしています。

データ ウェアハウス、データ レイク、分析、BI、機械学習を網羅する Fabric は今年初めにリリースされ、「組織の分析ニーズのあらゆる側面」に対応することを約束しています。

今週レドモンドのソフトウェア大手の Ignite カンファレンスで、マイクロソフトは一般提供開始といくつかの新機能を発表した。

ロボット

Copilot を手に入れれば、Copilot を手に入れられます – Microsoft は Copilot の会社になりまし

もっと点火する

その一つがミラーリングです。これは、FabricのSynapseデータウェアハウスシステムに既存のクラウドデータウェアハウスとデータベースを追加・管理する方法です。マイクロソフトによると、ミラーリングは外部データベースのスナップショットをOneLakeのDelta Parquetテーブルに複製し、レプリカを「ほぼリアルタイム」で同期させます。

そこからユーザーはショートカットを作成し、コネクター、データエンジニアリング、AIモデルの構築、データウェアハウスといった他のFabricワークロードがデータを再度移動することなく使用できるようにすることができます。マイクロソフトは、Azure Cosmos DBとAzure SQL DBがミラーリングを使用してOneLakeのデータにアクセスできるようになると約束しており、クラウドベースのデータプラットフォームプロバイダーであるSnowflakeとNoSQLデータベースであるMongoDBのユーザーも同様に利用できるようになります。

この動きは、ここ数年のデータウェアハウスおよび分析分野で見られるトレンドをある程度実現するものです。Deltaテーブル形式をサポートすることで、互換性のある他の分析エンジンは、OneLakeのデータを移動することなくアクセスし、使用できるようになります。

Delta は、アプリケーション大手の SAP と Databricks によってサポートされています。

しかし、同様の目的のために、Apache Icebergという異なるテーブル形式を採用している企業もあります。Snowflake、Cloudera、GoogleのBigLakeなどがその例です。

Iceberg と Delta は、実質的には Apache Parquet データ ストレージ形式上のメタデータ レイヤーです。

Apache Hudi と同様に、両方の形式は、データの移動コストを回避しながら分析エンジンをデータに持ち込めるように設計されていますが、Microsoft は、パフォーマンスを向上させるには他のソースからデータをコピーする必要があると主張しています。

Microsoft Igniteの概要

  • The Register: 副操縦士がいれば副操縦士手に入る – マイクロソフトは今や副操縦士の会社
  • 次世代プラットフォーム:マイクロソフト、自社開発CPU、AIシリコンで半導体大手に挑む
  • The Register: マイクロソフトのスイスアーミーナイフアプリはクラウドの乱雑さを解消することを目指している
  • The Register: マイクロソフトはWindows AI Studioでデスクトップ環境の非クラウド開発者をターゲットに
  • The Register: Databricks のレイクハウスが AI の夢の新たな層の基盤となる
  • Microsoft: レドモンドのすべての発表とイベントのホームページおよびセッション。

Azure Data の最高副社長である Arun Ulag 氏はThe Registerに対し、Mirroring の背後にあるアイデアは、たとえば Snowflake のような独自のデータベースやデータ ウェアハウスにデータを保存している顧客が、レプリカ OneLake を作成し、維持できるようにすることにあると述べました。

データを 2 か所に保存する必要があるかもしれないが、パフォーマンス上の利点があるだろうと Ulag 氏は主張した。

「Snowflakeのデータの大部分はIcebergではなく、独自のデータベースに保存されています」と彼は述べた。「独自のデータ形式の他のデータと同様に、データにアクセスするにはSQLインターフェースを経由するしかなく、これが顧客のコスト増加につながります。また、実行に別の層が追加されるため、パフォーマンスが低下します。」

例えば、Fabric Power BIにデータをコピーする場合、データはOneLakeのネイティブフォーマットであるApache ParquetとDelta Lakeに保存されているため、SnowflakeにSQLクエリを送信する必要すらありません。「クエリが送られてくると、OneLakeに送られてメモリに貼り付けられるだけです」とUlag氏は言います。「SQL実行が不要になるため、パフォーマンスが大幅に向上します。」

スノーフレーク社の製品管理ディレクター、ジェームズ・マローン氏はThe Reg紙に次のように語った。「スノーフレークでは、データのコピーを排除することでガバナンスを簡素化し、効率性を高めることが重要だと考えています。お客様のニーズは多岐にわたるため、お客様のニーズに合った選択肢を提供することが私たちのアプローチです。」

「多くのお客様は、当社のフルマネージドフォーマットでSnowflakeにデータをロードすることで、シンプルさ、セキュリティ、そしてパフォーマンスに大きな価値を見出しています。また、相互運用性を優先するユースケースもあります。そのようなケースでは、Icebergを完全にオープンにし、Azureを含むSnowflakeがサポートするあらゆるクラウドのお客様のストレージで動作するようにサポートしています」とマローン氏は付け加えた。

  • Microsoft Fabricは、エンタープライズ分析のパッチワークを打破することを約束する
  • TabularのIcebergビジョンは、Netflixでのんびりとした時間からデータベースのスリルへと移行します
  • データブリックスがVCの資金源を揺るがし、5億ドルが流出
  • Apache Icebergはクラウドベースのデータ分析の経済性を変えると期待されている

ある業界専門家は、Microsoftが将来的にIcebergをネイティブサポートすると述べているが、それまではクエリパフォーマンスを向上させるためにデータをコピーする必要があると述べた。また、Microsoftはクラスタリングの制御方法を通じてSnowflakeよりも優れたデータ管理を実現し、クエリパフォーマンスを向上できると考えている可能性もあると専門家は指摘した。

アマルガム・インサイツのCEO兼チーフアナリストであるヒョン・パーク氏は、「マイクロソフトは喜んでParquetファイルを受け取ってマイクロソフトのデータレイクに格納するだろうし、その過程で得られるSnowflakeデータも喜んで受け取るだろう」と語った。

しかし、舞台裏では、マイクロソフトが当面は Iceberg ではなく Delta に注力している理由があるのか​​もしれない。

「これまでDelta Lakeフォーマットに注力してきた大手企業は、有力スタートアップ企業のDatabricks社1社だけであることが分かっています」とパーク氏は述べた。「Azure Databricks製品も提供されており、非常に好調です。実際、Microsoft Azureで最も成功している製品かもしれません。当社のデータによると、データレイクと関連する分析・機械学習ワークロードを考慮すると、現在、数十億ドル規模のビジネスとなっています。」

マイクロソフトは、短期的な成長の多くをAIに賭けていることを隠していません。これは、マイクロソフトがDelta Lakeフォーマットをサポートし、自社のインフラとリソースで可能な限りの作業を自社で行いたいと考えていることを意味します。

パーク氏は、マイクロソフトはAzureクラウド事業を多く展開しており、それらもDatabricksに直接依存しているため、このビジネスを失うことのないようあらゆる手段を講じたいと述べた。「データレイクの標準としてはIcebergが主流ですが、ITベンダー全体を見渡すと、Databricksはデータレベルでの機械学習インフラの提供において非常に成功を収めています」とパーク氏は述べた。

しかし、最終的にはマイクロソフトも Iceberg の重要な貢献者になるだろうと彼は述べた。

Igniteで、MicrosoftはCopilotチャットボットをFabricに拡張すると発表しました。現在パブリックプレビュー中のこの拡張により、データサイエンティストは自然言語を使用してデータフローやパイプラインを作成し、SQL文を記述し、レポートを作成し、機械学習モデルを開発できるようになります。®

Discover More