Databricks がオープンソース プロジェクトを開始し、あらゆるデータ沼を情報レイクに排水

Table of Contents

Databricks がオープンソース プロジェクトを開始し、あらゆるデータ沼を情報レイクに排水

Apache Spark フレームワークのオリジナル作成者によって設立されたアメリカのスタートアップ企業 Databricks は、分析から価値を生み出すはずの企業の生のデータの巨大なプールであるデータスワンプを悩ませている信頼性の問題を解決するために設計されたオープンソース プロジェクトを開始しました。

Delta Lakesプロジェクトは既存のデータレイク上にデプロイされるため、基盤となるアーキテクチャを変更する必要はありません。バッチデータとストリーミングデータに対応し、データ品質とスキーマを検証できるほか、破損したデータセットがアルゴリズムに影響を与えることもありません。

Delta Lake には、基準を満たさないデータの隔離機能も追加されており、開発者が監査、ロールバック、機械学習実験の再現のためにデータの以前のバージョンにアクセスできるようにする Time Travel という機能もあります。

そして最後に、Delta Lake は、すべてのメタデータを処理するために分散処理能力を使用しているため、特定のデータセットのすべてのコピーを短時間で見つけ出すのに役立ちます。これは、GDPR コンプライアンスなどにも非常に役立ちます。

このプラットフォームは、あらゆるApache Sparkジョブにデータソースとしてプラグインできます。Spark APIと100%互換性があり、開発者たちはこれを「Sparkの兄弟のようなもの」と表現しています。

現金の山

投資家はデータブリックスの大量投資のように分析ビジネスに2億5000万ドルを投じる

続きを読む

Delta Lake のデータは、Hadoop を扱ったことがある人なら誰でも馴染みのある、実績のある Apache Parquet 列指向ストレージ形式で保存されます。

このソフトウェアはApache 2.0ライセンスの下でオープンソース化されています。ソースコードの詳細を詳しく調べたくないお客様には、DatabricksのマネージドサービスとしてDelta Lakeをご利用いただけます。AWSまたはAzureでホストされています。

Databricksは、2013年にバークレー校で出会った研究者チームによって共同設立されました。その中には、2009年に博士論文としてSparkを開発し、後にApache Mesosクラスタマネージャーの共同開発者となったコンピュータ科学者、マテイ・ザハリア氏も含まれています。現在、同社は約700人の従業員と2,000社の顧客を抱えています。

「私たちは創業当初から、イノベーションは孤立ではなくコラボレーションから生まれると信じてきました。この信念がSparkプロジェクトとMLflowの創設につながりました。Delta Lakeは、データレイクの信頼性向上と機械学習への取り組みの加速に向けて協力し合う、活気ある開発者コミュニティを育むでしょう」と、同社の共同創業者兼CEOであり、バークレー大学の非常勤教授でもあるアリ・ゴドシ氏は述べています。

Databricks によれば、このプラットフォームはすでに Viacom、Comcast、Edmunds、Riot Games、Zeiss、Conde Nast、McGraw Hill などの企業で本番環境に導入されているという。®

Discover More