ベクトル検索はエンタープライズデータベースの新たなトレンド

Table of Contents

ベクトル検索はエンタープライズデータベースの新たなトレンド

約 2 年前、人気のキャッシュ データベース Redis は、生成 AI への関心の高まりを受けて、自社のプラットフォームにベクトル検索機能を追加した一連のベンダーの 1 つでした。

ベクトル埋め込みは、OpenAIのChatGPTなどの基礎モデルによって生成され、単語やフレーズといった言語のチャンクを表現するために使用されます。そのアイデアは、データベースにベクトル検索機能を追加することで、エンタープライズシステムが基礎モデルを超えてエンタープライズデータにまで及ぶ数百万のベクトルを保存、インデックス化、検索できるようにすることです。

2023年以降、非常に多くのデータベースシステムがベクトル検索をコア機能として発表しており、競合他社との差別化はほとんど見られません。例えば、MongoDB、Cassandra、PostgreSQL、Snowflake、SingleStoreはすべて同じ年に同じ機能を発表しました。

ベンダーは現在、現代の AI スタックに欠かせない存在になるための競争において、より詳細な機能で自社を差別化しようとしています。

例えば、RedisはLangCacheを発表しました。このフルマネージドRESTサービスは、意味的に類似したクエリへの過去の応答をキャッシュすることで、コストが高くレイテンシが発生しやすいLLMへの呼び出しを削減するように設計されています。

「Redis はアプリケーションと使用している LLM の間に位置し、クエリを渡すと、一致する応答があるかどうかが確認され、LLM 推論エンジンに送られるのではなく、応答が返されます」と、Redis の CEO である Rowan Trollope 氏は今月初めにThe Register に語った。

分散バックエンドを備えたPostgreSQL互換データベースであるYugabyteDBも、AIサポートのためにソフトウェアをさらに深く適応させることに取り組んでいます。パラマウント、GM、クローガーといった企業を顧客に持つ同社は、Usearch、HNSWLib、Faissといったベクターインデックスライブラリを統合することで、PostgreSQLベクター検索拡張機能pgvectorのパフォーマンスが向上すると述べています。

創業者兼共同CEOのKarthik Ranganathan氏はThe Registerに対し、Yugabyteはpgvectorのパフォーマンス向上のため、分散バックエンド上でこれらのインデックスを複製し、自動シャーディングしたと語った。Ranganathan氏は、pgvectorはPostgreSQLという巨大なコミュニティの支援を受けているものの、長年利用されてきたリレーショナルシステムでベクトル検索を再実装していると主張した。専門的なベクトルデータベースに対応するには、パフォーマンスの向上が必要だと述べた。

「AIの世界ではあらゆるものが本当に速く動いているため、私たちはこうしたオープンソースライブラリのいくつかと直接インターフェースし始めました」と彼は語った。

ガートナーは昨年、ビジネスにおける「ムーンショット」AIプロジェクトの失敗率が高いと指摘しました。GenAIがビジネスで達成できる成果に対する期待は低下し、2025年は「滑り落ちの年」になると予想されました。

ガートナーは別の調査で、データインフラの準備不足がGenAIをビジネス課題に導入する上での進展を阻害していると警告しました。同社は、2025年と2026年には、データが不足しているために組織がAIプロジェクトの60%を放棄すると予測しています。

ガートナーのシニアディレクターアナリスト、ロクサーヌ・エジラリ氏は、ベクターデータストアを組み込むことは、組織がデータ管理を拡張および改善し、GenAIなどの新しいユースケースをサポートするための方法の1つであると述べています。

「AI対応データは『一度で終わり』ではないことを覚えておいてください。既存および将来のAIユースケースに基づいて、データ管理インフラストラクチャを継続的に改善する必要がある実践として考えてください」と彼女は述べています。

彼女は、組織が AI に投資し、AI 対応のデータプラクティスを開発し、メタデータ管理、データの観測性、分析、AI ガバナンスへの継続的な投資と成熟度を維持することを推奨しました。

RedisとYugabyteは、AIサポートの追加を検討しているトランザクションシステムです。導入実績で優位に立っているトランザクションデータベースはOracleであり、アナリストはOracleを、ビジネスシステムのリレーショナルデータに自然言語ベクトル検索機能を導入した先駆者と評しています。

しかし、分析システムベンダーも GenAI の要件を満たすために自社のテクノロジーを更新しようと努めています。

テラデータはビジネスインテリジェンスとデータウェアハウス分野で40年の歴史を誇り、HSBC、ユニリーバ、アメリカン航空などを顧客に擁しています。昨年、同社はNVIDIA NeMoとNIMマイクロサービスをVantageクラウドプラットフォームに統合し、AIワークロードの高速化と、大規模言語モデル(LLM)の基盤およびカスタマイズ、そして検索拡張生成(RAG)アプリケーションの開発支援を行うと発表しました。

さらに遡ると、テラデータは専門分析ベンダーのアスター社を2億6,300万ドルで買収した頃から機械学習への投資を開始した。

テラデータのアナリティクスおよびアーキテクチャ担当バイスプレジデント、マーティン・ウィルコックス氏は、The Register紙に対し、企業がAIエージェントやLLMを活用した顧客インタラクションを模索する中で、アナリティクスおよびBIサービスの需要が高まっていると語った。ウィルコックス氏によると、テラデータの超並列処理(MPP)シェアードナッシングアーキテクチャは、1億5000万から2億5000万のパラメータ範囲でAIモデルの推論を実行できるという。テラデータは、ハイパースケーラーのLLMをサポートするため、これらの企業とのAPI統合も強化しているとのことだ。

同時に、クライアントは、画像、音声、PDF、電子メールなどの非構造化データの大規模なストアを作成し、その上でベクトル検索を採用して、LLM と組み合わせて自然言語で独自の情報を理解しています。

「現在のベクターデータベース技術は、基本的に2種類あります」とウィルコックス氏は述べています。「まず、小規模なデータセットでは優れたパフォーマンスを発揮する特殊用途の技術がありますが、必ずしも拡張性に欠け、エンタープライズレベルの要件を満たしていないことがよくあります。次に、Apache Sparkのようなモデル・ビュー・プレゼンター(MVP)フレームワークがあります。これは、これらのタスクに対して線形に拡張できますが、パフォーマンスが著しく低い場合が多いです。そのため、拡張性とパフォーマンスの両方を備え、エンタープライズクラスのデータベース管理システムに期待される従来の要件をすべて備えたベクターストアには、この中間の技術が必要だと考えています。」

  • Redis の作者の復帰がベクトルセットデータ型で実を結ぶ
  • Oracle は 19c データベースのサポートを 2032 年まで延長し、「最長の戦略的リリース」に
  • アナリストはリアルタイム分散AerospikeのACIDトランザクションを歓迎
  • Microsoft Fabricは、単一のデータベースサービス上でトランザクションと分析を実現することを約束します。

「お客様がAIエージェントを使って何をしているのかを見れば、それはBIの活用や予測機械学習の活用が進んでいることも意味します。エージェント自体は非常に洗練されたモデルですが、組織のコンテキストについては全く理解していません。何らかの有益な意思決定を行うためには、バックエンドのデータベースシステムに多くの質問をする必要があります。」

SingleStore(旧称MemSQL)は、OLTPとOLAPの両方を単一システムでサポートするデータベースを構築しており、Uber、Kellogg、そしてエンジニアリング大手のGEなどを顧客に抱えています。SingleStoreもまた、データベースにおけるGenAIサポートの需要を予測し、2017年から厳密近傍法を用いたベクトル検索をサポートしています。昨年は、インデックス付き近似近傍法(ANN)検索のプレビューを発表しました。ANN検索は、ベクトル検索を桁違いに高速化し、開発者のアプリケーション構築を容易にすると同社は主張しています。

テクニカルエバンジェリストのアクマル・チャウドリ氏によると、SingleStoreは世界中に400社の顧客を抱えており、そのうち約45社がベクター検索を含む同社のGenAI機能をある程度利用しているという。「彼らは幅広い業種をカバーしており、その多くは規制の厳しい業界にも属しています。彼らはそうした環境に特化したチャットボットを構築しています」とチャウドリ氏は述べた。

多くの企業がベクター機能を活用しているのは、単にSQLを使ったメタデータフィルタリングや単語ごとの検索といった機能以上の機能を備えているからです。ベクター機能は、私たちが持っているデータからより多くのコンテキストを引き出そうとするものです。今日、多くの組織は膨大な量のデータを抱えながらも、それをどう活用すべきか迷っています。そのため、ベクター機能はデータに問いを投げかける機会を与えてくれます。

ガートナーの調査によると、63%の組織がAIに適したデータ管理プラクティスを保有していない、または保有しているかどうか不明であると回答しています。また、現在GenAIが注目を集めているものの、ビジネス上の課題を解決できる機械学習は他にも存在するとガートナーは指摘しています。例えば、シミュレーションはGenAIよりも計画や予測に適しているとガートナーは指摘しています(以下のスライドを参照)。

ガートナー提供のAIユースケースと技術のヒートマップ

ガートナー提供のAIユースケースと技術のヒートマップ

同時に、同社は、既に成熟したソフトウェアカテゴリーであるDBMS市場全体が2025年には16%成長し、約1,370億ドルに達すると予測しています。ベンダー各社は、AIを活用してビジネス課題を解決する方法を示すことで、顧客の支出拡大を今後も追求していくとみられます。®

Discover More