特集昨年はクラウドにおけるデータ分析と機械学習にとって大きな年でした。大手2社であるMicrosoftとDatabricksは、いずれもプラットフォームを刷新し、Microsoftは新製品もリリースしました。
当然のことながら、クラウド データ分析市場の大手である Google は、ここ数年で Walmart、HSBC、Vodafone、Home Depot などの顧客を獲得しており、場合によっては Teradata などの企業の確立されたオンプレミスのエンタープライズ データ ウェアハウス システムに取って代わっています。
新技術に関しては、Googleは2023年にMicrosoftやDatabricksのような主要なプラットフォーム発表とは異なり、ラインナップの追加や調整を行いました。GoogleのデータウェアハウスBigQueryは、自動スケーリングと圧縮ストレージに加え、様々なワークロード要件に合わせて機能を設定するための選択肢と柔軟性が向上しました。また、Standard、Enterprise、Enterprise Plusの各エディションを組み合わせることで、ワークロードごとに最適な価格性能比を実現できました。BigQuery Data Clean Roomsは、ユーザーのプライバシーを尊重し、データセキュリティを維持しながら、組織間でデータセットを共有および照合することを可能にしました。
Postgresの先駆者マイケル・ストーンブレーカーが再びデータベースをひっくり返すと約束
続きを読む
AlloyDB Omniは、Googleが提供するPostgreSQL互換データベースサービスです。このサービスは、他のクラウド・ハイパースケーラー、オンプレミス、開発者向けラップトップで利用できます。OracleやIBM Db2といった、古くから利用されているデータベースシステムからの移行を支援する自動化ツールも多数含まれています。
しかし、データ プラットフォームに関しては、主要プレーヤーが単一の場所から BI、分析、機械学習用の構造化ワークロードと非構造化ワークロードを提供し、疑わしい「レイクハウス」という用語を採用していますが、Google はすでに競争に必要なものを備えていると、Google データ分析担当副社長兼ゼネラル マネージャーの Gerrit Kazmaier 氏はThe Registerに語っています。
「大規模な分析システムが膨大なデータレコードを構築しています。これらのシステムが相互に連携するだけでなく、シームレスに統合されることが非常に重要です。例えば、あるシステムから別のシステムへデータを直接複製する必要さえありません。BigQueryは、データベースが書き込むのと同じ場所にある同じデータにアクセスします。レイテンシもオーバーヘッドもゼロで、ミラーリングやレプリケーションも必要ありません。基本的にどこからでもアクセスできるからです」とカズマイアー氏は語る。
Google のアーキテクチャでは、セキュリティとガバナンスのための統合アクセス レイヤーによって、BI、データ ウェアハウス、ML などのアプリケーションがバックエンドにリンクされます。バックエンドは、BigQuery マネージド ストレージと Google Cloud Storage、および AWS S3 と Microsoft Azure Storage のマルチクラウド ストレージによって提供されます。
アーキテクチャは、少なくとも概念的には、Microsoftの製品に似ています。6月に発表され、11月に一般提供が開始されたMicrosoft Fabricは、Databricksが開発したオープンソースでLinux Foundationが管理するDeltaテーブル形式ですべてのデータを保存するOneLakeテクノロジーから、さまざまなアプリケーションやワークロードに対応することも約束しています。
Microsoftによると、このアプローチにより、Power BIなどのアプリケーションはSQLクエリを送信することなく、Synapseデータウェアハウス上でワークロードを実行できるという。Onelakeに仮想データウェアハウスが作成され、そこでデータがメモリにロードされる。レドモンドの巨大企業である同社は、このアプローチによりSQLクエリ実行中にSQL層がなくなるため、パフォーマンスが向上すると主張している。
Google のアーキテクチャは Microsoft のアプローチと類似していますが、Netflix で開発され、現在は Apache Foundation を通じてオープンソースとなっている Iceberg テーブル形式に依存しています。
カズマイアー氏は次のように述べています。「BigQueryにおける数十年にわたるイノベーション、特にクエリパフォーマンス、アクセス時間、クエリ最適化の革新をBigLakeで提供することで、お客様はパフォーマンスだけでなく、Icebergコミュニティによる豊富な開発成果も享受できるようになりました。特に、メタデータへのアクセスと理解、そしてファイルへのアクセス方法において多くの最適化を行っており、これがGCP上のIcebergとBigQueryの優れたパフォーマンスにつながっています。」
- データブリックスのレイクハウスがAIの夢の新たな層の基盤となる
- SnowflakeはSQLとPythonのプログラマーにLLMを提供します
- TileDBはGitHubのスターを集めるだけでなく、データベースを再考するために3400万ドルを確保しました
- マイクロソフトとデータブリックスのコンビがデータプラットフォーム市場の独占を目指す
この分野の主要ベンダーは、Apache Parquetファイル形式を基盤とするIceberg、Delta、Hudiといったすべてのテーブル形式をサポートしている、あるいはサポートする予定だとしていますが、各社は「ネイティブ」サポートを重視しています。この傾向は業界に分裂をもたらし、Databricks、Microsoft、SAPはDeltaを支持し、Google、Cloudera、Snowflake、AWS、IBMのNetezzaはIcebergに重点を置いています。
カズマイアー氏は、GoogleがIcebergをサポートしたのは、オープンソースへの強いコミットメントによるものだと述べている。「IcebergはApacheプロジェクトです。非常に明確なガバナンスが敷かれており、特定のベンダーとは一切関係がなく、コミュニティからの幅広い貢献があります。」
同氏によると、Google は顧客の要望に応えて Iceberg を「主要なデータ戦略フォーマット」として選択したが、一部の顧客がすでに Databricks 中心のスタックを構築しているため、Delta と Hudi のサポートも追加したという。
「真の答えは、お客様がどれだけの柔軟性を求めているかにあります。最も柔軟でオープンな環境を求めるなら、Icebergは最も幅広い選択肢を提供します。Databricks中心の導入からレイクハウスアーキテクチャへの移行を重視するなら、Deltaは最適な選択肢です。Icebergは非常に迅速かつ幅広い導入実績を誇っています」と彼は述べています。
先月、Apache Sparkデータレイクから生まれたデータプラットフォーム企業であるDatabricksも、スタックの大幅な刷新を発表しました。同社は2020年初頭に発表した「レイクハウス」コンセプトをベースに、新たな「データインテリジェンス」レイヤーを導入することを約束しています。このコンセプトは、データウェアハウスの構造化されたBIおよび分析ワークロードと、データレイクの複雑な世界を融合させるものです。製品の詳細は伏せつつ、同社は「プラットフォームのあらゆる部分を強化する」ために「データインテリジェンス」レイヤーであるDatabricksIQを導入すると述べました。
同社は、レイクハウスのデータとAIを横断する統合ガバナンス層と、ETL、SQL、機械学習、BIを網羅する単一の統合クエリエンジンを維持しながら、生成AIスタートアップ企業であるMosaicMLを13億ドルで買収した際に得た技術の活用を進めたいと考えている。Databricksによると、その構想は「AIモデルを用いて企業データのセマンティクスを深く理解する」ことだという。
DatabricksのレイクハウスはSQLクエリをサポートしていますが、エンタープライズ規模のBIワークロードをサポートできるかどうかについては批判の声もあります。2021年、ガートナーはクラウドベースのデータレイクは10人以上の同時ユーザーからのSQLクエリに苦労する可能性があると指摘しましたが、Databricksはこの主張に反論しました。先月、Ventana ResearchのアナリストであるMatthew Aslett氏は、データレイクを拡張し、エンタープライズBIワークロードをサポートしようとする組織が増えており、こうした困難に気づき始めていると述べています。
たとえば、Adidas は Databricks を中心にデータ プラットフォームを構築しましたが、同時実行ワークロードのパフォーマンスを向上させるために、インメモリ データベース Exasol を使用してアクセラレーション レイヤーも作成しました。
カズマイアー氏は、Googleの同時実行へのアプローチは、仮想マシンの起動回数を増やすことなく、CPU以下のレベルでパフォーマンスを向上させるものだと説明する。「これらのキャパシティユニットはシームレスに移動されるため、クエリが終了してリソースを解放した時点で、そのリソースをすぐに別のクエリに移動させ、アクセラレーションの恩恵を受けることができます。こうしたマイクロ最適化はすべて、システムのサイズを変更することなく実行されます。実行するワークロードで使用するキャパシティの理想的な予測を常に提供します」と彼は言う。
昨年初めにガートナーが発表した論文では、このアプローチが支持されています。「オンデマンドと定額料金のスロット予約モデルを組み合わせることで、組織全体にキャパシティを割り当てる手段が提供されます。使用されるモデルに基づいて、送信されたクエリにスロットリソースが割り当てられます。スロットの需要が現在の空き容量を超える場合、追加のスロットがキューに入れられ、キャパシティが利用可能になった時点で処理されます。この処理モデルにより、大規模なクエリワークロードの同時処理を継続的に行うことができます」と論文には記されています。
Microsoft と Databricks は 2023 年のデータ スタックの発表で市場の注目を集めたかもしれませんが、Ventana の Aslett 氏は、主要プレーヤー間で差はほとんどなく、明らかな技術的リードはリリースの頻度によるものだと考えています。
来年を見据えると、Google はライバルから最近の注目をいくらか取り戻したいと考えているかもしれない。®