インタビュー6月、DatabricksはオープンソースのApache Icebergテーブルフォーマットを支援するスタートアップ企業Tabularに10億ドルを出資しました。これは、このニッチなテーマがいかに重要になったかを物語っています。この動きはIcebergコミュニティに衝撃を与えました。
これには2つの理由があります。まず、40億ドルのベンチャーキャピタルからの資金調達により名目価値430億ドルとなったDatabricksは、Linux Foundationが管理するオープンソースプロジェクトである独自のテーブルフォーマット「Delta」を推進していました。そして、Tabularはライバルフォーマットのオリジナル開発者によって設立されたのです。
TabularのIcebergビジョンは、Netflixとチルからデータベースのスリルへ
続きを読む
Icebergはすでに、NetflixやAppleを含む世界的なテクノロジー企業やメディア企業でデータエンジニアリングと分析戦略の基盤となっており、これらの企業ではIcebergが全面的に採用されていると言われている。
元アップルのソフトウェアエンジニアリングマネージャーであるラッセル・スピッツァー氏はThe Registerに対し、今回の買収は非常に驚きだったと語った。
「評価額自体が非常に大きいです。Tabularは小さな会社です。しかし、Apache Icebergが無料であることも驚きでした。Apache Icebergコミュニティの一員となり、開発を推進したいのであれば、コードとエンジニアリングの時間を提供するだけで十分です。Apache Icebergに貢献するために多額の資金を費やすかどうかは…まあ、決断の問題です」と、6月にSnowflakeにプリンシパルエンジニアとして入社し、現在もApache Icebergのコミッター兼PMCメンバーを務めるスピッツァー氏は語る。
この突然の買収は、アイスバーグコミュニティにも動揺をもたらした。「コミュニティの中には確かに少し心配していた人もいました。私は心配していませんでした。なぜなら、Databricksに移籍した私の知り合いは、Apacheのやり方、つまりオープンソースの真の信奉者だからです。彼らは買収できるとは思えません。このプロジェクトを信じ、成功を願っている人たちがいます。私には、彼らはこれまでやってきたことを続けるために、莫大な金額を支払わされているようにしか思えません。ですから、どうなるか見てみましょう」と彼は言う。
Icebergプロジェクトは、2015年頃からNetflixでライアン・ブルーとダン・ウィークスによって開発され、後に数十億ドル規模のIceberg企業Tabularの共同創業者となりました。2018年11月には、オープンソースプロジェクトとしてApacheソフトウェア財団に寄贈されました。
Apache Icebergは、大規模な分析ワークロード向けに設計されたオープンテーブル形式であり、Spark、Trino、Flink、Presto、Hive、Impalaなどのクエリエンジンをサポートしています。組織は、新しいデータストアに移行するコストや手間をかけずに、好みの分析エンジンをデータに活用できるという考え方です。2022年には、Apache IcebergはGoogle、Snowflake、Clouderaといった大手データウェアハウスおよびデータレイクベンダーから支持を獲得しました。
バイオインフォマティクスの博士であるスピッツァー氏は、Apple入社後間もなくIcebergの開発に着手しました。以前はDataStax社に在籍し、列指向データベースCassandraのApache Sparkコネクタの開発に携わっていました。当初は、DatabricksのCTO兼共同創業者であるマテイ・ザハリア氏が最初に開発したSparkの開発を継続するつもりでしたが、状況は急速に変化しました。
「Appleに勤めていた友人がたくさんいて、AppleにはSparkチームとCassandraチームがあると聞いて、Appleに入社しようと応募し始めました。入社しようとしていた矢先、採用担当者から、ちょうど立ち上げ間もないApache Icebergについて聞きました。オープンソースに興味があり、一緒に盛り上げてくれる人材が必要だと。私は承諾し、その後はほぼ歴史の通りです」と彼は語る。
スピッツァー氏によると、現在、アイスバーグはアップル社内で「非常に大きな存在」となっている。「私が入社した頃は、ほとんど何もありませんでした。当時はアイスバーグが何なのか誰も知りませんでした。なぜそれが必要なのかを説明する必要がありました。今では誰もがアイスバーグを知っています。アップル社内でも、大多数の社員が、今後はテーブル形式を採用していくつもりだと言っています。」
しかし、Icebergだけが唯一の選択肢ではありませんでした。DatabricksはIcebergと同様の目的を持つ独自のテーブル形式「Delta Lake」を開発していました。また、Apache Hudiも存在します。支援者によると、これは単なるテーブル形式ではなく、データ取り込みツール、全く異なる並行処理モデル、インデックスといった機能も備えています。
スピッツァー氏は、Spark Summitで初めてDeltaの存在を知ったのは、Databricks Deltaが初めて発表された時だったと語る。「私はそこに座って、『これは多くの問題を解決してくれる』と考えていました。ところが、Databricksで利用できるクローズドソース製品だと言われたんです。『ああ、まあ、私たちはそれを使うことはないだろう』と思いました」
Delta Lake 2.0は2022年半ばにLinux Foundationに寄贈されましたが、ベンダー側がLinux Foundationによって管理されていると抗議しているにもかかわらず、批評家はDatabricksとあまりにも密接に連携しすぎていると主張しています。
これは、アイスバーグの開発に最初に携わったライアン・ブルー氏もかつて共有していた見解です。 2023年9月にThe Registerのインタビューで、彼はデータブリックスがデルタの構築をうまく行ったものの、「フォーマットの中立性、そしてデータブリックスによる厳格な管理のために他のプレイヤーが実際に投資して最大限の成果を上げられるかどうかという点において」懸念があると述べました。
しかし、自身が設立に関わった企業が10億ドルで買収された後、彼はより微妙な見方をするようになった。
ブルー氏は最近開催されたDatabricksのウェビナーで、長期的な計画としてIcebergとDeltaを統合すると述べた。「DeltaとIcebergのアイデアを融合させ、現状の両者よりも優れたものに仕上げることに非常に興奮しています。このプロジェクトに取り組めることを大変嬉しく思っています。数年かかることは承知していますが、これは長期的なビジョンです。」
その間、Delta に保存されたデータを Apache Iceberg または Apache Hudi のように読み取ることができるように設計された Databricks UniForm が、2 つの形式間の相互運用性を支援することになります。
最近、UniFormはIcebergリーダークライアントでDeltaテーブルを読み取る機能を導入しました。Blue氏はウェビナーで、データカタログも重要な役割を果たすと述べました。DatabricksカタログUnityは、今年初めにLinux Foundationの傘下でオープンソース化されました。
ウェビナーで、ブルー氏はテーブル形式の分裂が開発者にとって問題を引き起こしていることを認めた。「どちらを使うかを選択しなければなりません。エンジンやその他のフレームワークは、どちらか一方をサポートするか、あるいは両方をサポートしないかを決めてきました。その結果、不一致という大きな問題が生じ、人々が最新の形式を全く選択できなくなっています。これは絶対に最悪のことです。」
SnowflakeのSpitzer氏は、2つのフォーマットを統合するのではなく、Icebergが事実上の標準となることを期待していると述べています。「私たちがすべてApache Icebergを内部的に使用することで、設計上のポイントとしてテーブル形式が基本的に不要になることを願っています。」
スピッツァー氏によると、スノーフレークの計画は、ユーザーに統合されたデータウェアハウスと分析スタックをサービスとして提供することであり、より異機種混在環境を構築したい開発者は、アイスバーグ形式を使用することで、スノーフレークの分析エンジンを自社のデータにどこからでも持ち込むことができるようになるという。「これはスノーフレークにとっても有益です。だからこそ、彼らは私を雇ったのです。誰のデータでも変更を加えることなく操作できることは、スノーフレークにとって大きな価値です」と彼は語る。
- Databricksによる10億ドルのTabular買収は、表形式戦争に疑問を投げかける
- AWSとIBM Netezzaがテーブル形式の対決でIcebergをサポート
- スノーフレークがさらなるプレイヤーを模索する中、データブリックスはカードをテーブルに載せる形式を導入
- CockroachDB が 5 年間のミッションを経てついに Azure に登場
いわゆるテーブルフォーマット戦争では双方がうまくやっているものの、企業の影響力に関する懸念は依然として残っています。
スピッツァー氏は、ベンダー各社がアイスバーグに貢献するプロジェクトを準備しており、この分野の統一化の可能性が高まっていると語る。
「おそらく近いうちに、他のグループもアイスバーグへの投資を開始するでしょう。ほぼ全員が、これが未来につながると考えています。アイスバーグに入札すれば、将来裏切られることはありません。アイスバーグは、自分が参加し、コントロールできるものです。これは多くの人々に将来の安心感を与えるでしょう」と彼は言います。®