データ管理および機械学習フレームワーク企業の Databricks は、乱雑なデータレイクの世界に SQL スタイルの分析をもたらすと主張するツールをリリースします。
同社によると、SQL Analyticsは、従来のデータレイクの適用範囲をデータサイエンスや機械学習から、ビジネスインテリジェンスやSQLを含むあらゆるデータワークロードへと拡張する。今週からプレビュー版が利用可能となる。
このツールは、同社のレイクハウス コンセプトを具現化したものであり、ご想像のとおり、非構造化データを迅速に取り込めるという利点を持つ、乱雑で混沌としたデータ レイクの世界に、データ ウェアハウスの世界のガバナンス、パフォーマンス、秩序の一部を持ち込もうとする試みです。
Databricks の製品マーケティング担当副社長 Joel Minnick 氏はThe Registerに対し、次のように語っています。「アーキテクチャとしては少々風変わりな名前ですが、レイクハウスはおそらくこのアーキテクチャがどのようなものかを明確に表現する最良の方法です。」
SQL Analyticsは、既存のデータレイクに秩序とパフォーマンスをもたらすとされる、Databricksのオープンフォーマットデータエンジン「Delta Lake」をベースに構築されています。また、ミニック氏によると、Delta Engineは「ポリモーフィッククエリ実行エンジン」であり、SparkをC++に書き換えることでベクトル化のメリットを享受できるとのことです。Apache SparkはScalaで記述されています。
ミンニック氏によると、このアイデアは、高性能な SQL 分析クラスターとして構成されたクラスターをユーザーが自動スケールできるようにし、その結果、組織が「舞台裏で」高いユーザー同時接続数 (多くのログインユーザー) を処理できるようにするというものだ。
同氏によると、データブリックスは、クエリのトラフィックと実行方法を制御するための「エンジニアリングも実施」し、往復の通信を最小限に抑えてレイテンシーを削減したという。
SQL 分析やデータ エンジニアリングに精通しているユーザーは、Delta Lake テーブルのスキーマを調べて、「SQL クエリを実行し、結果を視覚化」できると Minnick 氏は述べています。
Databricks SQL エンジンは、BI 作業をデータ レイクに持ち込み、ユーザーがその乱雑なデータ リポジトリから価値を引き出すことに役立つ可能性がありますが、既存のエンタープライズ データ ウェアハウスに取って代わることはまずないだろうと、IDC のソフトウェア リサーチ担当副社長 Philip Carnelley 氏は述べました。
「両方の長所を活かすという考え方で、確かにメリットはあります。しかし、これは豊富な技術リソースを持つ企業向けのソリューションです。他のエンタープライズデータツールと併用して運用します。Teradataのようなデータウェアハウスシステムも既に利用しているため、利用頻度は多少下がるかもしれませんが、すぐにデータウェアハウスを廃止する人はいないでしょう」とカーネリー氏は述べた。
Databricksは、Hadoopなどの分散ファイルシステム向けのクエリ構築を支援するデータフレームワークであるSparkの主要ベンダーの一つです。DataBricksのCTO兼共同創設者であるMatei Zahariaは、Sparkの初期の開発者です。®