デルタ湖と氷山のコミュニティが良い意味で衝突する

Table of Contents

デルタ湖と氷山のコミュニティが良い意味で衝突する

約620億ドルと評価される機械学習およびデータレイクビジネスを営むDatabricksは、市場のライバルが好むオープンソースのアイスバーグテーブル形式に貢献しています。

2 つの競合するテーブル形式間の連携は、データがどこにあってもユーザーが好みの分析エンジンでデータを実行できるようにし、データ移動のコストを削減することを目的としているが、2013 年に Apache Spark フレームワーク上に設立された Databricks が、Snowflake、Google、AWS が好む形式である Apache Iceberg の元の開発者によって作成されたスタートアップ企業 Tabular を 10 億ドルで買収した後に生まれた。

氷山 アイスランド

TabularのIcebergビジョンは、Netflixとチルからデータベースのスリルへ

続きを読む

サンフランシスコで開催されたApache Iceberg Summit 2025で講演したIcebergの共同開発者ライアン・ブルー氏は、昨年共同設立した同社を買収したDatabricksの一員となったことで、開発コミュニティがこれまでは立ち入り禁止とされていた問題を解決するのに役立っていると語った。

Apache Icebergは、Netflixで初めて大規模分析ワークロード向けに開発されたオープンテーブル形式であり、Spark、Trino、Flink、Presto、Hive、Impalaなどのクエリエンジンをサポートしています。Apache Parquetファイル形式をベースに、2018年にApacheプロジェクトとなり、2022年にはGoogle、Snowflake、Clouderaからのサポートを受けました。

大規模な分析プロジェクトでは、データ移動がコストと効率性の足かせとなる可能性があるため、Icebergは市場の経済性を根本から変える可能性を秘めています。AppleとNetflixはどちらもIcebergの主要ユーザーです。

しかし、Databricksは独自のテーブルフォーマットであるDelta Lakeを立ち上げました。これは、概ね同様の問題を解決するために設計されています。Linux Foundationの管轄下にあるオープンソースのDeltaは、MicrosoftやSAPといったソフトウェア大手に好まれています。ただし、DatabricksのツールUniFormなどを通じて、両社間ではある程度の相互運用性があります。

しかし、ブルー氏は、データブリックスに入社して以来、2つのコミュニティが協力して2つのプロジェクト間の連携を改善し、お互いの経験から学んでいるのを目にしてきたと語った。

「われわれは...問題を検討し、『Iceberg は読み取りに最適化されているが、Delta は書き込みに最適化されている』と言い、対立的に考えていた」と同氏は会議で語った。

「コミュニティ間の協力により、私たちはこれらのこと(制限やトレードオフ)を課題、つまり解決可能な課題として捉えるようになりました。私の目標は、これまでと変わらず、Icebergをあらゆるユースケースに適したユビキタスなテーブルフォーマットにすることです」と彼は付け加えた。

ブルー氏によると、両コミュニティ間の協調作業の一例として、ファイルの削除粒度の改善が挙げられます。提案された解決策である削除ベクトルは、現在開発中のIcebergバージョン3に搭載される予定です。Icebergコミュニティは、同じ問題に取り組んでいたDeltaチームに相談しました。

削除ベクトルは、ファイル全体を書き換えずにデータ ファイルから特定の行を削除することが期待されます。

Blue氏は次のように述べています。「DatabricksのDeltaチームのメンバーは本当に頼りになりました。彼らは最初から最後までIcebergの仕様について相談に乗ってくれ、Deltaで何がうまくいって何がうまくいかなかったのかアドバイスをくれたので、同じミスを繰り返すことはありませんでした。私たちには、これらのことを検証してくれる大規模なコミュニティがありました。これはSnowflakeからの提案でしたが、DatabricksのDeltaチームのメンバー数名によってレビューされ、Deltaに既に存在する機能との互換性が確保されました。ですから、IcebergとDeltaのコミュニティが今、一体化しているのを見るのは本当に素晴らしいことです。」

「コードを共有しているわけではありませんし、プロジェクト管理委員会を統合しているわけでもありません。しかし、IcebergとDeltaのコミュニティが連携しているのは素晴らしいことです。」

バージョン 3 に搭載される予定のその他の機能には、地理空間データや、Iceberg がドキュメント形式 JSON などの非構造化データをインデックスできるようにする新しいバリアント タイプなどがあります。

一方、Snowflake は、Iceberg テーブル上の独自の分析エンジンのパフォーマンスの向上に取り組んでいます。

スノーフレークはこれまで、データベース外部のアイスバーグテーブル形式のデータに分析エンジンを導入することができていたが、それにはパフォーマンス面でのコストがかかっていた。今回の発表では、この問題に対処することを約束していると、スノーフレークの製品担当副社長クリスチャン・クライナーマン氏はカンファレンスで語った。

  • 記憶は薄れ、アーカイブは燃え尽き、すべての信号はやがてノイズになる
  • AWSはIcebergの道を辿り、分析プラットフォームを統合
  • AWSはAIがあらゆるものを破壊できると述べ、Windowsにもまさにそうなることを期待している。
  • アイスバーグの勢力は強力:テーブル形式戦争は最終章に突入するのか?

「Iceberg と Parquet ファイル形式は、データの実際の保存方法と表現方法にかなりの自由度があります。一方、Snowflake のファイル形式は、データの書き方がわかっており、最適な形式も理解できます」と、同氏は述べた。

この変動は、行グループと呼ばれるレコードやさまざまな圧縮方式に影響を及ぼす可能性があると彼は述べた。

「Parquet管理データの書き込みにおけるあらゆる変動性を考慮することは、私たちがこれまで行ってきた取り組みの大きな部分を占めています。私たちは、ファイルを開いて何をスキャンし、何をスキャンしないかを賢く判断し、効率的に実行できるようにするために、生のParquetスキャンに注力してきました」と彼は述べた。

Snowflake によれば、ユーザーは自社のプラットフォームを使用しながら、データ テーブル レベルでベンダー ロックインされることなく、Iceberg でデータを保存、管理、分析できるようになりました。

AWSは昨年12月にS3テーブルを作成し、Icebergとの連携を拡張しました。このユビキタスストレージバケットの拡張は、Icebergテーブル形式を利用する分析ユーザーを対象としています。

汎用データベースの図

オープンソース データベース: オープンソース データベースとは何か、そしてなぜ重要なのか?

続きを読む

AWS 副社長兼著名なエンジニアの Andy Warfield 氏は先週The Register のインタビューに応じ、Iceberg カンファレンスについての見解を述べました。

「サンフランシスコはいつも驚かせてくれます。データスタックの真ん中に位置するオープンソースのものが、ハイウェイ101号線沿いの看板に載っているのを見るのは奇妙な感じでした」と彼は語った。

テクノロジー企業や独立系開発者からの多数のゲストに加え、金融サービスやメディア企業の技術者も出席しました。

ウォーフィールド氏は、Icebergとインプロセス分析データベースであるDuckDBの組み合わせに熱意を示しました。DuckDBは2023年2月にIceberg拡張機能を追加し、先月にはApache Iceberg RESTカタログのサポートをプレビューしました。これにより、DuckDBユーザーはAmazon S3テーブルとAmazon SageMaker Lakehouseに接続できるようになりました。

この動きは、 The Register が昨年取り上げたDuckDB の PostgreSQL 拡張機能と合わせて、新しいシステムを構築する開発者にとって興味深いものでした。

「多くのスタートアップがPostgreSQLを使って開発を行っています」とウォーフィールド氏は述べた。「この2つを組み合わせることで、DuckDBを介してIcebergのS3テーブル上にバックアップすることが可能になります。多くの開発者がIcebergのS3テーブルを活用し、ログやアプリケーションデータを入力するツールとして活用し、すぐに使い始められるようになっています。これは、より大規模な分析タスクへの非常に興味深い入り口であることが証明されています。」

「私たちのチーム内でも、エンジニアたちはすぐに作業に取り掛かれることに驚いています。データを共有しやすく、他の作業が必要になったときに、より大規模で強力なツールと連携させることができます。」®

Discover More