Google は、データ レイクとデータ ウェアハウスを組み合わせることでデータ制限をなくすことができると主張するデータ レイク ストレージ サービスである BigLake の Google Cloud でのプレビューを発表しました。
BigLakeは、あらゆる規模の組織が現在保管・保持しているデータ量の増加と多種多様なデータに関連する問題に対処するために設計されています。こうしたデータをすべて保管する動機は、多くの場合「役に立つ可能性があるから」と要約できます。適切なツールを用いて分析すれば、ビジネスに役立つ貴重な洞察が得られるという考えに基づいています。
Googleのデータクラウドサミットに合わせて発表されたBigLakeは、組織がデータウェアハウスとデータレイクを統合し、基盤となるストレージレイヤーを気にすることなくデータ分析を行うことを可能にします。これにより、処理のためにデータを複製したり、ソースから別の場所に移動したりする必要がなくなり、コストと非効率性が削減されるとGoogleは主張しています。
- GoogleがBigQueryのキャッシュ層を組み込みBIのインタラクティブ性を高める
- オラクルがArm搭載クラウドを導入、大口顧客向けのオンプレミスオプションも提供
- GoogleはOracleの池から水を汲む:SQLシステムログの吸い上げは壮大なデータ共有ビジョンの一部
- メタ理解の大規模な演習でAIをマッピングするグラフデータベース
Googleによると、従来のデータアーキテクチャでは、保存されているすべてのデータの潜在能力を最大限に引き出すことができず、分散したデータレイクやデータウェアハウスにまたがってデータを管理するとサイロ化が生じ、組織のリスクとコストが増大します。データレイクは本質的に、保存された膨大なデータの集合体であり、構造化形式と非構造化形式が混在する場合もあります。一方、データウェアハウスは一般的に、構造化されフィルタリングされたデータのリポジトリと見なされています。
Google によると、BigLake は、Google Cloud Storage 上のデータレイクにアクセスするために使用する BigQuery ツールの長年の開発から得た経験に基づいて構築されており、いわゆる「オープン レイクハウス」アーキテクチャを実現しているという。
このデータ「レイクハウス」の概念は、ここ数年で、Snowflake または Databricks によって開拓されましたが、これはどちらを信じるかによって異なります。これは、組織内のすべてのデータ ワークロードをサポートできる単一のプラットフォームを指します。
BigLake は、きめ細かなアクセス制御、分析クエリ用に設計されたオープンソースの列指向ストレージ形式である Parquet などのオープン ファイル形式のサポート、Apache Spark などのオープンソース処理エンジンをユーザーに提供します。
Googleが発表したもう一つの新機能は、Spanner変更ストリームです。これにより、ユーザーはSpannerデータベース内の変更をリアルタイムで追跡し、新たな価値を引き出すことができるとGoogleは述べています。SpannerはGoogleの分散SQLデータベース管理およびストレージサービスであり、この新機能は、顧客のSpannerデータベース全体におけるSpannerの挿入、更新、削除をリアルタイムで追跡します。
MongoDBはマーケティング予算の映画マニアで正気を失っている: そうだ、ドロップダウンメニューを備えたハッカーの冒険を自分で選ぶゲームだ
続きを読む
これにより、ユーザーは、リアルタイム分析や、Pub/Sub を使用してダウンストリーム アプリケーションの動作をトリガーするなどの他の目的のために、Spanner から BigQuery へのレプリケーションで最新のデータ更新を利用できるようになります。
Googleはまた、Vertex AI機械学習プラットフォーム向けにVertex AI Workbenchの一般提供を開始したことを発表しました。これにより、データと機械学習ツールが単一の環境に統合され、ユーザーはデータ分析、データサイエンス、機械学習の分野で共通のツールセットを利用できるようになります。
Google によると、Vertex AI Workbench を使用すると、チームは従来の AI ノートブックよりも 5 倍速く機械学習モデルを構築、トレーニング、展開できるようになります。®