更新されたデータ ウェアハウスの大手企業 Teradata は、レイクハウス コンセプトに対する嫌悪感を払拭し、非構造化データに対してエンタープライズ分析を実行するというアイデアを採用しました。これは同社がかつて反対していた状況です。
同社は1979年に設立され、2010年代までの数十年間、エンタープライズデータウェアハウスの先駆者であったが、その後、柔軟性の向上と初期費用の削減を約束する、いわゆるクラウドネイティブデータウェアハウス製品の台頭により影を潜めてきた。
Teradata 社は、BI やその他の分析のためにデータを単一のストアに移動するのではなく、その場でデータに対して分析を実行するという業界のトレンドを取り入れ、オープン テーブル フォーマット (OTF) の Apache Iceberg と Linux Foundation Delta Lake のサポートを発表しました。
テラデータは、AIの導入により、データウェアハウス、アナリティクス、データサイエンスのワークロードが統合されたレイクハウスに統合されたと主張しました。「OTFのサポートにより、テラデータのレイクハウス機能がさらに強化され、柔軟性、コスト効率、使いやすさを重視して設計されたストレージ抽象化レイヤーが提供されます」と、同社は企業声明で述べています。
レイクハウスのコンセプトは、TeradataのライバルであるDatabricks社が発祥です。Databricks社は、Apache Sparkを基盤とした機械学習・アナリティクス企業です。Databricks社は2020年に、組織が乱雑なデータを保管するデータレイクのガバナンスを強化し、SQLベースの分析をその場で実行できるようにする、一種のハイブリッドアプローチとしてこのコンセプトを発表しました。
18ヶ月前まで、テラデータはレイクハウスのコンセプトを避けていました。 2022年後半にThe Registerのインタビューで、元CTOのスティーブン・ブロブスト氏は、データレイクとデータウェアハウスは、一貫性のあるデータアーキテクチャ内の独立した概念であるべきであり、クエリ最適化と1,000ユーザー規模の同時実行という同社の強みを活かすべきだと述べました。
「統一されたアーキテクチャが必要ですが、それらは別々のものです。生データ(実際にはデータレイク)とデータ製品(エンタープライズデータウェアハウス)の間には違いがあります」とブロブスト氏は述べた。
テラデータは8月にAWS S3などのオブジェクトストアの最適化を一部改善した独自のデータレイクを立ち上げたが、ブロブスト氏は、生データとデータウェアハウスの間には重要な違いがあり、後者はクエリパフォーマンスを最適化し、ガバナンスを制御すると述べた。
テラデータが劇的な方向転換を決断したのは、24年以上にわたり同社で開発に携わったブロブスト氏が1月に退社したことと何らかの関係があるのかもしれない。
Teradata は、OTF Delta Lake と Iceberg の採用により、「Teradata VantageCloud Lake に将来を見据えた側面」がもたらされ、現在利用可能で「AI 向けのクラウドネイティブ分析およびデータ プラットフォーム」が提供されると主張しています。
- スノーフレークの株価は、収益予測が予想を下回ったことで下落した。
- マイクロソフトとデータブリックスのコンビがデータプラットフォーム市場の独占を目指す
- テラデータが予測分析にLLMを導入
- Microsoft Fabricは、エンタープライズ分析のパッチワークを打破することを約束する
ライバルベンダーが Delta Lake、Iceberg、そしてもう 1 つの OTF である Hudi に関してすでに自社の立場を明確にしており、場合によっては 2 年近くも前からその姿勢を明らかにしているという事実は無視してください。
Apache Icebergは、Spark、Trino、Flink、Presto、Hive、Impalaなどのクエリエンジンをサポートしながら、大規模な分析ワークロード向けに設計されたOTFです。2022年にSnowflake、Google、Clouderaがサポートを発表して以来、ここ数年で勢いを増しています。Dremio、Starburst、そしてNetflixでIcebergプロジェクトが開発された際にそのチームによって設立されたTabularなど、より専門的な企業も参入しています。
テラデータCTOのスティーブン・ブロブストがデータレイクハウス構想を否定
続きを読む
Delta Tableフォーマットの開発元はDatabricksですが、Linux Foundationによって管理されているため、完全にオープンソースであると主張しています。昨年、SAPとMicrosoftはDeltaのサポートを発表しましたが、両社ともIcebergとHudiのデータにも将来的に対応できると述べています。
先週、CRM企業のSalesforceはApache Icebergへの取り組みを強化しました。The Registerへの声明の中で、同社はオープンソースプロジェクトへの貢献を表明し、データウェアハウスおよびデータレイクのパートナーであるSnowflake、Google BigQuery、AWS Redshift、Databricks、Microsoft(Fabric)と連携していると述べました。Delta Lakeへの取り組みについては明言を避けました。
OTF全体を通して、目標はほぼ同じです。それは、データ移動のコストと労力をかけずに、最適な分析エンジンをデータに統合することです。Teradataは常に、データを一箇所に集約し、構造化することに重点を置いてきました。最適化されたクエリと高性能な同時実行性を重視しています。OTFとデータレイクハウスに対する新たなサポートを踏まえると、それが何を意味するのかは、多くの未解決の疑問を残しています。Teradataは、この疑問に答える機会を得ました。®
追加情報: 更新しました:
テラデータの広報担当者は次のように述べている。「テラデータは、オープンで接続性を重視し、データウェアハウス、データレイク、データレイクハウス、オブジェクトストア内のデータを中心に構築されたクラウドで AI と分析を採用することに注力しています。」
2022年には、レイクハウス機能を備えた、完全にクラウドネイティブな新しいデータおよび分析プラットフォームであるVantageCloud Lake with ClearScape Analyticsをリリースしました。最新のデータアーキテクチャにおけるリーダーシップの一環として、今週発表されたオープンテーブルフォーマット(OTF)では、企業が期待するパフォーマンスとコストガバナンスを備えたIcebergとDeltaの両方のサポートを正式に開始します。
OTFの主流導入はまだ初期段階ですが、テラデータはこれらの機能を強化し、お客様に提供することに尽力しています。さらに、OTFをコアアーキテクチャに統合することで、多くの先駆者よりも一歩先を進み、パフォーマンスと効率性の向上を通じてビジネス価値の向上を推進しています。オープンカタログ間の相互読み取りと相互書き込みを提供する唯一の企業として、私たちは革新性と揺るぎないコミットメントの両方を示しています。これは、テラデータが長年にわたり、お客様が統合データから明確なビジネス価値を実現できるよう支援することに注力してきたこと、そしてLLMやgen AIを含むTrusted AIプラットフォームへの進化に合致しています。