Databricks: うわ、この乱雑なデータレイク環境を見てください。目を細めてください。SQLを使えば、これなら整理できるのに。

データ管理および機械学習フレームワーク企業の Databricks は、乱雑なデータレイクの世界に SQL スタイルの分析をもたらすと主張するツールをリリースします。

同社によると、SQL Analyticsは、従来のデータレイクの適用範囲をデータサイエンスや機械学習から、ビジネスインテリジェンスやSQLを含むあらゆるデータワークロードへと拡張する。今週からプレビュー版が利用可能となる。

このツールは、同社のレイクハウスコンセプトを具現化したものであり、ご想像のとおり、非構造化データを迅速に取り込めるという利点を持つ、乱雑で混沌としたデータレイクの世界に、データウェアハウスの世界のガバナンス、パフォーマンス、秩序の一部を持ち込もうとする試みです。

SQL - lake conceptual illustration

Databricks の製品マーケティング担当副社長 Joel Minnick 氏はThe Registerに対し、次のように語っています。「アーキテクチャとしては少々風変わりな名前ですが、レイクハウスはおそらくこのアーキテクチャがどのようなものかを明確に表現する最良の方法です。」

SQL Analyticsは、既存のデータレイクに秩序とパフォーマンスをもたらすとされる、Databricksのオープンフォーマットデータエンジン「Delta Lake」をベースに構築されています。また、ミニック氏によると、Delta Engineは「ポリモーフィッククエリ実行エンジン」であり、SparkをC++に書き換えることでベクトル化のメリットを享受できるとのことです。Apache SparkはScalaで記述されています。

ミンニック氏によると、このアイデアは、高性能な SQL 分析クラスターとして構成されたクラスターをユーザーが自動スケールできるようにし、その結果、組織が「舞台裏で」高いユーザー同時接続数 (多くのログインユーザー) を処理できるようにするというものだ。

同氏によると、データブリックスは、クエリのトラフィックと実行方法を制御するための「エンジニアリングも実施」し、往復の通信を最小限に抑えてレイテンシーを削減したという。

SQL 分析やデータエンジニアリングに精通しているユーザーは、Delta Lake テーブルのスキーマを調べて、「SQL クエリを実行し、結果を視覚化」できると Minnick 氏は述べています。

Databricks SQL エンジンは、BI 作業をデータレイクに持ち込み、ユーザーがその乱雑なデータリポジトリから価値を引き出すことに役立つ可能性がありますが、既存のエンタープライズデータウェアハウスに取って代わることはまずないだろうと、IDC のソフトウェアリサーチ担当副社長 Philip Carnelley 氏は述べました。

「両方の長所を活かすという考え方で、確かにメリットはあります。しかし、これは豊富な技術リソースを持つ企業向けのソリューションです。他のエンタープライズデータツールと併用して運用します。Teradataのようなデータウェアハウスシステムも既に利用しているため、利用頻度は多少下がるかもしれませんが、すぐにデータウェアハウスを廃止する人はいないでしょう」とカーネリー氏は述べた。

Databricksは、Hadoopなどの分散ファイルシステム向けのクエリ構築を支援するデータフレームワークであるSparkの主要ベンダーの一つです。DataBricksのCTO兼共同創設者であるMatei Zahariaは、Sparkの初期の開発者です。®

Databricks: うわ、この乱雑なデータレイク環境を見てください。目を細めてください。SQLを使えば、これなら整理できるのに。

Table of Contents

Discover More

HP社からゼロックス社へ：敵対的買収を実行し、当社の最高経営責任者を解雇しようとするなら、罰金を払うことになるだろう…

これはロンドンの旅行者が避けるべきアップミンスターの列車遅延だ

苦難のシリコン：AppleのA14チップのベンチマークは出たが、Intel以降のMacが登場すれば、本当の姿が明らかになるだろう

Table of Contents

Smart Recommendations

Discover More