Snowflake は、クラスターのセットアップを必要とせず、クラウド ウェアハウスで Apache Spark コードを直接実行するためのクライアント コネクタをリリースします。
これは、一般的なオープンソース分析エンジンを実行するクラスターのプロビジョニングとメンテナンスを回避するように設計されています。
Apache Spark は、Hadoop 分散ファイル システム上のビッグ データの問題を解決するために 2014 年に初めて導入されましたが、分析とデータ準備での人気により、クラウド時代においても成長を続けています。
一方、Snowflake は、クラウドのコンピューティングと世代を分けるストーリーの一部である RDBMS データ ウェアハウスとして誕生しました。
NetflixでさえAWS資産のコストを特定し理解するのに苦労している
続きを読む
スノーフレークの製品管理担当副社長、クリス・チャイルド氏は、顧客は長い間 Spark を使用しており、多くの場合、データを処理して分析や AI で使用できるように準備していると述べています。
一部の顧客は、2 つの異なるコンピューティング エンジン、インフラストラクチャの種類、ガバナンスのレイヤーを備えた別々のシステムで実行することに負担があると指摘しましたが、Spark コード (通常は Java、Python、または Scala で、広く普及しているデータベース言語 SQL) を書き直す作業は、Spark ワークロードの移行を検討するには大きすぎました。
「私たちが受け取ったフィードバックは、人々が構築したタイプの変革を書き換えるのは非常に難しいことが多いというものでした」とチャイルド氏は語った。
その後、Apache Spark コミュニティは、あらゆるクライアント アプリケーションがリモート Spark クラスターに接続できるようにするクライアント サーバー アーキテクチャを採用した Spark Connect を導入しました。
Snowflakeは、新しいSnowpark Connectorにより、SparkユーザーにSparkクライアントでSparkコードを実行する機能を提供します。ただし、Sparkクライアントは独立したSparkクラスタではなく、サーバーとしてSnowflake分析エンジンにリンクされます。また、オープンソースのSparkプロジェクトへの貢献も継続します。
Apache Sparkがテクノロジーの世界に火をつけ、ビッグデータの同業他社を凌駕した経緯
続きを読む
「当社のプレリリースプレビューでこれを実行した顧客は、まったく同じデータに対してまったく同じコードを実行した場合、平均で5.6倍のパフォーマンス向上を実感しており、従来のSparkと比較して約40パーセントのコスト削減も実現しています」とチャイルド氏は主張した。
Snowflakeは、顧客がSparkコードに同社のベクトル化エンジンを利用できることで、依存関係、バージョン互換性、アップグレードの管理など、個別のSpark環境の維持や調整に伴う複雑さを回避できると主張している。「Snowflakeで、最新のSpark DataFrame、Spark SQL、ユーザー定義関数のコードをすべて実行できるようになりました」と同社は述べている。
二人が一つになる
この動きは、機械学習とアドホック分析のためのデータレイクと、反復可能でクエリに最適化された高同時実行 BI および分析のためのデータウェアハウスという、これまで 2 つの異なる市場であった領域における境界統合の一環です。
Databricksは創業当初、データレイクを提供するためにSparkを基盤として構築されましたが、過去5年間は「レイクハウス」というコンセプトの下、データレイクとデータウェアハウスを統合する分野へと事業を拡大してきました。一方、Snowflakeは、自社のデータプラットフォーム上でデータレイクを提供する分野へと事業を拡大しています。
どちらのアプローチにも批判はありました。2021年、ガートナーはデータレイクが「従来型」データウェアハウスで処理できる同時ユーザー数をサポートするのに苦労する可能性があると指摘しました。その後、Databricksは、BIおよびSQLワークロードに即時のコンピューティングを提供するように設計されたSQL Serverlessで同時実行性を向上させたと発表しました。
- スノーフレークとデータブリックスがPostgreSQLを買収し、取引を自社プラットフォーム上に導入
- DuckDBによるレイクハウスアーキテクチャの抜本的な見直しに業界が反応
- ベクトル検索はエンタープライズデータベースの新たなトレンド
- デルタ湖と氷山のコミュニティが良い意味で衝突する
Snowflakeは、コンピューティングリソースがユーザーの増加に対応できるよう柔軟に調整される中で、予期せぬコストでユーザーを驚かせたことで批判も受けています。同社は近年、顧客の請求額削減を支援する最適化戦略でこの問題の解決に取り組んでおり、大手ユーザーである食料品配達サービス会社InstaCartは、Snowflakeの利用を削減しているのではないかという根拠のない憶測が飛び交う中、3年間でSnowflakeの請求額を数千万ドル削減すると発表し、市場関係者を驚かせました。
同時に、Snowflakeは、顧客がデータの保存場所を問わず、同社のコンピューティングエンジンを使ってデータを活用できるようにする戦略を実行しようと努めてきました。チャイルド氏によると、顧客はSnowflakeに必ずしも保存したい量よりもはるかに多くのデータを保存したいと考えているとのことです。
「Apache Icebergに多額の投資を行い、人々がより簡単にデータ処理を行えるようにしました。多くのお客様から、SQLだけでなく他の方法でもデータ処理をしたいという声が寄せられています。そこで、Snowpark Connectにも多額の投資を行い、お客様が望む方法でコードを実行できるようにしました」と彼は述べた。®