将来的には、「Google があなたに代わってグーグル検索を行う」ようになるだろう - 検索担当副社長の Liz Reid 氏はそう示唆している。
検索広告会社の年次開発者会議である Google I/O で火曜日、幹部らは、マルチモーダル機械学習モデルが点と点を結び空白を埋める世界について主張した。
「AIオーバービューを使えば、Googleがあなたに代わって作業してくれます」とリード氏は述べた。「自分ですべての情報をつなぎ合わせるのではなく、質問を投げかければいいのです。」
以前は Search Labs の実験として提供されていた AI Overviews が、本日米国の検索ユーザー向けに展開され、今後さらに多くの国で展開される予定です。
Google の検索の将来ビジョンには、複数の要求を 1 つの指示に組み合わせた複雑なクエリを実行することが含まれます。
例えば、「ボストンで最高のヨガまたはピラティススタジオを探して、入会特典の詳細とビーコンヒルからの徒歩時間を教えてください。」といった具合です。通常、これは3つ以上のキーワード検索クエリになります。しかし、Geminiを検索プロセスに組み込むことで、すべての問い合わせを一度に処理できます。
「内部的には、当社のカスタムGeminiモデルが、いわゆるマルチステップ推論を用いてAIエージェントとして機能します」とリード氏は説明した。「大きな疑問を細部まで分解し、どの問題をどのような順序で解決すべきかを判断します。」
しかし、AI 概要結果の表示により、検索者をリンクされた Web サイトに送るのではなく、Google の検索ページが閲覧者の注目を多く引き付けるように見えました。
リード氏によると、Geminiは複数日分の食事プランをオンデマンドで作成したり、アクティビティプランニングを自動化したりすることもできるという。少なくとも、AIモデルに意思決定を委ねることに抵抗がない人にとっては、なおさらだ。Search Labsで利用できる食事プランと旅行プランは、検索結果ページのアイコンからGmailやドキュメントにエクスポートでき、パーティー、デート、ワークアウトといった新たなプランカテゴリーも開発中だ。
Search Labs に近日登場予定のもう 1 つの検索機能は、ビデオを入力として使用して検索する機能です。
21世紀のツールを使って19世紀の技術を説明する – クリックして拡大
Google 検索のプロダクト担当副社長ローズ・ヤオ氏はステージ上のデモで、動くトーンアームを備えたターンテーブルの動画を Google 検索に送信して、「なぜこれが所定の位置に留まらないのか」という質問に答える方法を披露した。基盤となる Gemini モデルは、「これ」がぐらついたトーンアームを指していることを理解し、問題を解決する方法についての推奨事項を返すだけの知性を備えている。
一緒にいて楽しいAI友達、アストラ
Google の DeepMind の CEO、デミス ハサビス氏がステージに登場し、「ユニバーサル AI エージェント」である Project Astra について紹介した。
「私たちは長い間、日常生活に本当に役立つ汎用AIエージェントを構築したいと考えてきました」とハサビス氏は熱く語った。
Geminiモデルをベースに、動画フレームを連続的にエンコードし、動画と音声入力をイベントのタイムラインに統合し、それをキャッシュすることで効率的な呼び出しを実現することで、情報をより高速に処理できるエージェントを開発しました。また、イントネーションの幅を広げ、音声も強化しました。
「これらのエージェントは、ユーザーの状況をよりよく理解し、会話に素早く応答できるため、やり取りのペースと質がより自然に感じられます。」
チョコレートファクトリーの目標達成に向けた進捗状況を示す、事前に録画されたビデオ(リアルタイムでワンテイクで撮影されたとされる)が公開された。ビデオには、従業員がGoogleオフィス内を歩き回り、Astraを搭載したスマートフォンでスキャンする様子が映し出されていた。
何か音の出るものを見つけたら報告するように指示されると、電話のオペレーターは人間のような声で「スピーカーを発見しました」と返答した。さらに、部屋のライブ映像でスピーカーのツイーター部分を指差すと、スピーカーのツイーターを特定した。
アストラはウーファーとツイーターを区別できる – クリックして拡大
その後、エージェントはリクエストに応じて、クレヨンのボウルを表す頭韻を踏んだフレーズを作成しました。近くのモニターに表示されているソースコードの説明を求められると、ソフトウェアヘルパーは暗号化と復号化の関数を定義していると答えました。
最後に、場所を尋ねると、エージェントはロンドンのキングスクロス地区にあると判定しました。どうやらオフィスの窓からの景色を参考にしたようです。また、ユーザーがメガネを置いた場所も記憶していました。これだけでも多くのユーザーは入場料を払う価値があると感じるでしょう。
Google によれば、これは進行中のプロジェクトであり、これらの機能の一部は将来のある時点で Gemini に搭載される予定です。
- OpenAIによると、ネイティブマルチモーダルGPT-4oはテキスト、ビジュアル、サウンドを取り込み、同じものを出力する。
- Googleは、「Trillium」TPUが次世代AIモデルを強化する準備ができていると発表しました。
- Arm、2025年までに新チップを搭載したAI部門を立ち上げる予定
- AWS CISOがThe Regに語る: AIゴールドラッシュのさなか、人々はアプリケーションセキュリティを忘れている
GeminiはGoogle Workspaceへの浸透をさらに進め、Gemini 1.5 Proでは、Gmail、ドキュメント、ドライブ、スライド、スプレッドシートのサイドパネルを通じて、Workspace LabsおよびGemini for Workspace AlphaユーザーにAIサポートを提供するようになりました。来月には、Google One AI Premium加入者向けに、Gemini for Workspaceアドオン経由でデスクトップ版が利用可能になります。
Gemini Workspace の機能も、6 月に Gmail モバイル アプリに導入される予定です (具体的にはメールの要約)。また、コンテキスト スマート リプライと Gmail Q&A は 7 月までにリリースされる予定です。
クリエイターよ、運命に出会う
Google は、OpenAI のテキストから動画を作成するモデル Sora や、テキストから画像を作成するモデル DALL·E に負けまいと、テキスト プロンプトから動画や画像を作成するための Veo と Imagen 3 を発表しました。
「Veoは、テキスト、画像、動画のプロンプトから、高画質の1080p動画を作成します」とハサビス氏は断言する。「Veoは、ユーザーの指示を様々なビジュアルスタイルや映画的なスタイルで詳細に捉えることができます。風景の空撮やタイムラプスなどの指示を出したり、追加のプロンプトを使って動画をさらに編集したりすることも可能です。」
Imagen 3 は、画像内に判読可能なテキストを生成する機能と、選択領域に表示する内容を選択して再記述することで画像の領域を編集する機能を備えている点で興味深いものです。
VeoはGoogleのVideoFXサービスを通じてプライベートウェイティングリスト経由で利用可能で、Imagen 3も同様にImageFX経由でゲート制で利用可能です。MusicFXとTextFXはすでに利用可能です。
これらの新しいAI機能により、GoogleはAIの安全対策も強化しています。具体的には、チョコレートファクトリーは、SynthID透かし技術を、アプリ内およびウェブ上のGeminiで生成されたテキスト、そしてVeo動画に利用できるようにしています。
Google の AI モデル強化の詳細については、この巨大企業の開発者向け発表に関するレポートをご覧ください。®