Databricksがアナリティクス事業を買収、MLflowをLinux Foundationに寄贈、Delta Engineを研究者に公開

Table of Contents

Databricksがアナリティクス事業を買収、MLflowをLinux Foundationに寄贈、Delta Engineを研究者に公開

忙しい 24 時間の間に、Databricks は機械学習管理ツールである MLflow を Linux Foundation に引き渡し、分析ビジネスを買収し、Delta Engine のステータスを一般提供に移行しました。

ベンダーによると、MLflowはすでにオープンソースであり、200人のコントリビューターが参加し、月間200万ダウンロードを記録している。Linux Foundationは、MLflowにベンダー中立の基盤とオープンガバナンスモデルを提供することで、プロジェクトの採用と貢献を拡大していく予定だ。少なくとも、そう期待されている。

Databricks は今週開催された Spark and AI Summit で、データレイクの現状を示すダッシュボードや視覚化ツールを提供する Redash を買収したことも発表した。

同社の上級副社長兼EMEA担当ゼネラルマネージャーであるDavid Wyatt氏は、一般のビジネスユーザーにとっては向いていないと語り、Databricksはデータエンジニアやデータ科学者向けにツールを開発したと付け加えた。

「Tableauのような独立系ソフトウェアベンダーとは現在も関係を維持しています。なぜなら、その業界は巨大だからです。私たちは、その(ビジネスユーザー)業界を乗っ取ろうとしているわけではありません。」

一方、DatabricksのDelta Engineが一般提供を開始しました。Delta Lakeと呼ばれるこの技術は、同社のデータレイク技術上で分析クエリと機械学習モデルを構築・実行します。このエンジンは、構造化データと非構造化データが混在するデータを分析する際のパフォーマンスを向上させることを目的としています。

ワイアット氏は、コムキャスト、ユニリーバ、スターバックスなどの顧客がこのエンジンを使用することで、実行速度が最大8倍高速化していると主張した。

「あらゆるデータ ワークロードを Delta Lake 上で実行できるようになりました。これは、構造化されたデータを構造化された方法で管理するだけで、変更やアジャイルな処理が非常に困難だった従来のアプローチと比較すると、最高の状況です」と氏は語りました。

新しいリグでのみ意味がある

アマルガム・インサイツのチーフアナリスト、ヒョン・パーク氏は、新しいデルタエンジンによってパフォーマンスが向上しれば、データブリックスが「重要なビジネスデータや組織データの大部分を配置できる単一のソース」として見られるようになるかもしれないと述べた。

パイプライン

こんにちは、Sparkyさん。クラウドにおけるデータサイエンスのガバナンスとセキュリティに困惑していませんか?Databricksは機械学習パイプラインの簡素化を約束します。

続きを読む

しかし、Teradata、IBM、Oracle などの企業のエンタープライズ データ ウェアハウス テクノロジーに保存された構造化されたビジネス情報に対して信頼性の高いクエリを構築した組織は、それを Databricks のアプローチに置き換える可能性は低いでしょう。

「データブリックスはテラデータのデータウェアハウスを喜んで引き継ぐでしょうし、実際にそのようなケースも時々ありますが、データウェアハウスは予測可能なリレーショナルデータ向けに設計されています」とパーク氏は述べた。「企業が何百万ドルもかけて投資してきたこれらの資産を無駄にする理由はないと思います。」

「しかし、Databricks は、今後、さまざまな種類のデータを投入できるようになる点で優れています。」

DataBricksは、Hadoopなどの分散ファイルシステム向けのクエリ構築を支援するデータフレームワークであるSparkの主要ベンダーの一つです。CTO兼共同創業者のMatei Zaharia氏は、Sparkの初期開発者であり、HadoopのクエリエンジンであるMapReduceと比較して、速度と使いやすさの面で飛躍的な進歩を遂げたと考えられています。

しかし、Hadoop の全盛期は遠い記憶となり、より幅広い製品が登場するようになったため、同社はエンタープライズ データ管理と分析のより広い世界で競争するようになりました。®

Discover More