湖に飛び込め、スパーキー:データブリックスが新しい取り込みファイルソースを宣伝

Table of Contents

湖に飛び込め、スパーキー:データブリックスが新しい取り込みファイルソースを宣伝

人気のオープンソース ビッグデータ ツール Apache Spark を開発する Databricks 社は、データをデータ レイクにもっと迅速かつ容易に取り込むことを目的とした取り込みテクノロジーをリリースしました。

Auto Loaderは、クラウドストレージから新しいデータが到着するたびに、継続的かつ「効率的に」データをロードするファイルソースです。同社は、これによりコストとレイテンシが削減されるとしています。新しい「cloudFiles」は、入力ディレクトリからのファイルイベントをサブスクライブするファイル通知サービスを自動的に設定し、Apache SparkラングリングビジネスのDelta Lake(データレイクのストレージレイヤー)経由で新しいファイルが到着するとすぐに処理します。

Databricksの製品マーケティング担当副社長であるBharath Gowda氏は次のように述べています。「クラウドにはすでにオブジェクトストレージの形で大量のデータが存在します。企業は依然としてデータレイクにデータをプッシュし続けていますが、データの到着時刻や重複を追跡する必要があるため、非常に複雑なスケジュール設定を組み込んでいます。私たちはAuto Loaderを開発しました。これにより、データエンジニアはAWS S3などのあらゆる種類のオブジェクトストレージバケットを簡単に指定できるようになります。Auto Loaderは自動的に重複を処理し、ジョブを実行してデータをDelta Lake形式に変換します。」

タホ湖エメラルドベイ

Databricks がオープンソース プロジェクトを開始し、あらゆるデータ沼を情報レイクに排水

続きを読む

Databricksによると、Auto Loaderは、新しいファイルがクラウドストレージに保存されるたびに段階的に処理することで、ファイルの状態管理を回避します。クラウドサービスと、キーバリューデータ用の組み込みデータベースであるRocksDBを活用することで、ディレクトリ内のすべてのファイルをリストアップする必要なく、スケーラビリティが向上します。

同時に、同社はデータテクノロジー企業であるFivetran、Qlik、Infoworks、StreamSets、Syncsortと提携し、Databricks Ingestに組み込み統合機能を提供し、データロードの自動化を実現する契約を締結しました。Azureの顧客は既にAzure Data Factoryを利用可能であり、DatabricksはInformatica、Segment、Talendとも同様の機能を提供する契約を締結する予定です。

レイクハウス?何だって?

この新技術は、同社が「データ管理パラダイム」と呼ぶ新たな概念を伴って登場し、データウェアハウスとデータレイクのアプローチの長所を融合させると主張しています。同社はひらめきから、このパラダイムを「レイクハウス」と名付けました。この呼称が定着するかどうかはさておき、Databricksは、ユーザーがデータウェアハウスだけでなく、データレイクリポジトリからビジネスインテリジェンス(BI)を求めるようになるにつれ、データレイクのガバナンスとパフォーマンスを強化する方向へと事業を転換させています。

「データレイク上でBIが行われるケースが増えています」とゴウダ氏は述べた。「これは大きな変化です。なぜなら、データレイクとBIを一緒に考える人は少ないからです。私たちは、パフォーマンスと信頼性という従来の課題のいくつかを解決しました。」

もちろん、データウェアハウスベンダーはこれに反対し、データレイクはデータの取り込みと実験のみに利用すべきだと主張するでしょう。本番環境の機械学習と分析は、ウェアハウス内のデータに基づいて行われるべきです。

結局のところ、非構造化データと高速データの登場により企業データが多様化するにつれ、より多くのベンダーがより大きなパイをめぐって争うことになります。投資家は誰がより大きなパイを手に入れるのかを注視する一方、ユーザーは現在の環境と予算の制約の中で、すべてがうまく機能することを願うばかりです。®

Discover More