データウェアハウスおよび分析の主要ベンダーがこぞってオープンソースのテーブル形式に関する新機能を発表したことを受けて、Apache Iceberg は先週、新たな勢いを確保しました。
AWS、Cloudera、Google、SnowflakeがApache Icebergの支持を表明しました。Icebergは、同じくLinux FoundationのオープンソースプロジェクトであるDatabricksのDelta LakeやApache Hudiといった競合と競合しています。これらの企業は、ユーザーがデータを移動することなく、任意の分析エンジンでクエリを実行できる標準的なテーブル形式を目指して競い合っています。
例えば、Googleのデータウェアハウスおよび分析環境であるBigQueryは、Apache Iceberg向けのBigQueryテーブルをプレビューしています。これは、Apache Iceberg互換のフルマネージドストレージエンジンとされています。Chocolate Factoryは、データウェアハウスとデータレイク技術であるBigLakeを、いわゆるレイクハウスアーキテクチャに統合することを目指しています。
「BigLakeのテーブルは現在読み取り専用です。BigQueryの顧客は外部のクエリエンジンを通じてデータの変更を実行し、データ管理を手動で調整する必要があります」とベンダーはブログ投稿で説明した。
Apache Iceberg 用の BigQuery テーブルは、Apache Iceberg 形式を使用して顧客所有のクラウド ストレージ バケットにデータを保存しながら、BigQuery ネイティブ テーブルと同様の顧客エクスペリエンスと機能セットを提供します。
このように、新しい BigQuery テーブルは、GoogleSQL データ操作言語 (DML) を介して BigQuery から書き込み可能になり、BigQuery の書き込み API を介して Apache Spark などのオープンソース エンジンからの取り込みもサポートされます。
AWSのRedshiftは、いわゆるクラウドネイティブ・データウェアハウスにおいてBigQueryのライバルです。Redshiftはデータレイクテーブルの安全な共有機能を導入し、Parquet、ORC、JSON、CSVなどのオープンファイル形式に加え、Apache Icebergなどのオープンテーブル形式をサポートし、すべてAmazon S3に保存されます。
ClouderaとSnowflakeは、データ分析市場において異なる歴史を持っています。前者はApache Hadoop(HDFS)システム上にデータレイクを構築することからスタートしましたが、Snowflakeはクラウドベースのデータウェアハウスシステムにおけるストレージとコンピューティングの分離を実現するリーダーとして認識されていました。
- アイスバーグの勢力は強力:テーブル形式戦争は最終章に突入するのか?
- Cassandraは5.0リリースに向けてインデックスとストレージ管理を再設計
- SnowflakeはIcebergがテーブル形式戦争に勝利したと主張し、Databricksがそれを証明した。
- クラウドのSingleStoreは3度目の正直で成功したとCEOが語る
2022年、両社はデータを移動せずに相互運用性を向上させるためにApache Icebergを支援しました。
先週、Cloudera は Open Data Lakehouse の相互運用性を拡張することで Snowflake との統合を発表し、これにより両社の顧客は Apache Iceberg REST Catalog を介して Cloudera の Data Lakehouse にアクセスできるようになると述べました。
Clouderaの最高戦略責任者であるアブハス・リッキー氏は声明の中で、今回の動きにより、顧客のデータアーキテクチャの簡素化、データパイプラインの最小化、データ資産の総所有コストの削減、セキュリティリスクの軽減が実現すると述べた。
アイスバーグの勢力は強力:テーブル形式戦争は最終章に突入するのか?
続きを読む
鋭い観察者なら、テーブル形式への偏愛には例外があることに気づくでしょう。例えば、世界第2位のクラウドインフラストラクチャAzureと、レイクハウス環境Fabricを含む多数のデータテクノロジーを提供するMicrosoftです。Azure Data担当コーポレートバイスプレジデントのArun Ulag氏によると、Microsoftは市場の需要に応えてDelta Lakeを選択しました。Microsoft FabricはデフォルトでIcebergとHudiをある程度サポートしていますが、FabricはDeltaと列指向データファイル形式であるApache Parquetを優先しています。
一方、Databricksは、IcebergとDeltaの優れた点を組み合わせた単一の標準規格を作成することを夢見ています。その作業が進む一方で、Deltaに保存されたデータをApache IcebergやApache Hudiのように読み込めるように設計されたUniForm製品を通じて、統合への期待が高まっています。
今月初め、Snowflakeの主任エンジニアであるラッセル・スピッツァー氏は、Icebergがデファクトスタンダードとなることを期待していると述べました。Apple(AppleではIcebergが主流と言われている)から最近Snowflakeに加わったスピッツァー氏は、ベンダーやテクノロジー企業の多くの開発者グループがIcebergプロジェクトに貢献し始めているのを目にしていると述べました。®