Google Gemini 2.0 Flashがリアルタイム会話、画像分析機能を搭載して登場

Table of Contents

Google Gemini 2.0 Flashがリアルタイム会話、画像分析機能を搭載して登場

Googleは水曜日、開発者がAI StudioとVertex AIでエージェントアプリケーションを作成することを期待して、AIモデルのラインナップに最新追加したGemini 2.0 Flashをリリースした。

AI エージェントは現在、機械学習モデルの開発者の間で大流行しています。これは、有能で、コンプライアンスに準拠し、安価なソフトウェア由来の労働力に対する市場が存在するためです。これらの品質は、現在の AI モデルではまだ一貫して示されていません。

AIエージェントは、複雑な指示に従って、通常は外部のデータソースやツールと連携して、複数ステップのタスクを実行できるAIモデルで構成されています。AIに特化した企業の株主への売り込み文句は、次のようなものです。「顧客は当社のAIエージェントに旅行の計画を依頼でき、(ここに収益化戦略を挿入してください)エージェントが予約や交通費の支払いなど、必要な様々なステップを実際に実行します。」

まだそこまでには至っていません。なぜなら、ほとんどの人は、信頼性の低いAIモデルに購入権限やアプリケーションへのフルアクセスを委譲する準備ができていないからです。しかし、人々が試してみようと思うレベルまで、こうした懸念が解消されることを期待しています。そして、仮想通貨投資やハンズフリー自動運転に対する人々のリスク許容度の高さを考えると、その目標達成はそう遠くないと言えるでしょう。

「AIエージェントの実用化は、刺激的な可能性に満ちた研究分野です」と、Google DeepMindのCEOであるデミス・ハサビス氏とCTOのコライ・カヴククオグル氏は、 The Registerに以前提供された発表の中で述べた。

私たちは、人々がタスクを達成し、物事を成し遂げるのに役立つ一連のプロトタイプで、この新たな領域を探求しています。これには、ユニバーサルAIアシスタントの将来の可能性を探る研究プロトタイプであるProject Astraのアップデート、ブラウザから始めて人間とエージェントのインタラクションの未来を探る新しいProject Mariner、そして開発者を支援するAI搭載コードエージェントJulesが含まれます。

マーベル映画『アイアンマン』に登場するパーソナルアシスタント「ジャービス」の夢を実現するため、Googleはソフトウェア開発者をターゲットにしています。AI StudioとVertex AIプラットフォームを通じて、同社はAIモデルを提供しています。これらのAIモデルはグラウンディング(特定のデータソースにリンクすることでモデルの応答精度を高める)が可能で、特定の機能やツールへのアクセスも可能となっています。

「AI Studioは、開発者がGoogleの最新モデルにアクセスするためのインターフェースとなることを目指しています」と、AI StudioおよびGemini API担当プロダクトマネージャーのローガン・キルパトリック氏は記者会見で説明した。「AI Studioには、私たちがリリースしたあらゆる種類の実験モデルと、すべての製品版モデルが用意されています。Geminiが提供する機能に興味を持っていただき、最終的にはGemini APIを使って開発を行い、実際にアプリやプロジェクトにGeminiを組み込んでいただけるようにすることが狙いです。」

Gemini 2.0 Flashは、Googleの初代Geminiモデルの発売から1年後に登場します。Geminiファミリーの他のモデル(Gemini 1.0 Ultra、Gemini 1.5 Pro、Gemini 1.0 Pro、Gemini 1.5 Flash、そしてGemini 1.0 Nano)に加わります。

一般的に、1.5バージョンは1.0バージョンよりも高性能で、大型モデルは小型モデル(サイズの順にUltra、Pro、Flash、Nano)よりもパフォーマンスが優れている傾向があります。Chocolate Factoryは、より詳細なベンチマーク結果を公開しています。Gemini 2.0 Flashは、1.5 Proの2倍の速度で、パフォーマンスも向上していると言われています。

  • OpenAIのSoraはChatGPT加入者に不安定なテキスト生成ビデオを大量に作成させる
  • SAPは、GenAIがレガシー移行スキルの不足を解消するのに役立つと述べている
  • オープンソースのメンテナーはAIが書いたジャンクバグレポートに溺れている
  • RedditがAI搭載の「Answers」検索機能を導入、ユーザーは不機嫌

Gemini 2.0 Flashには、いくつかの新機能が追加されました。このモデルは多言語対応かつマルチモーダルで、テキスト、画像、音声を入力として受け入れ、どのモードでも応答できます。また、マルチモーダルなライブAPIも備えているため、リアルタイムの会話や画像分析が可能です。

さらに、新しいモデルは、コード実行と検索の形でツールの使用をサポートしており、最新の情報へのアクセス、計算機能、および追加設定なしでデータ ソースを操作する機能が提供されます。

「このモデルは現在、音声と画像の両方をネイティブに出力できる。これは早期アクセスプログラムで開始されるが、今後数か月かけてより広範囲に展開される予定だ」とキルパトリック氏は述べた。

Google は、Gemini 2.0 Flash のデビューに合わせて、Jules の展開を開始し、Google Colab にいくつかの「エージェント データ サイエンス機能」を追加し、VS Code、IntelliJ PyCharm、およびその他の IDE 向けの同社の AI コーディング拡張機能である Gemini Code Assist 内で新しいモデルを利用できるようにします。

「本日より、信頼できるテスターは、Python と JavaScript のコーディング作業を、Gemini 2.0 を使用する実験的な AI 搭載コードエージェントである Jules にオフロードできるようになります」と、Gemini API のグループ プロダクト マネージャーである Shrestha Basu Mallick 氏と、Google Labs のプロダクト ディレクターである Kathy Korevec 氏は、The Registerに以前提供された発表の中で述べています。

「Jules は非同期で動作し、GitHub ワークフローと統合されているため、バグ修正やその他の時間のかかるタスクを処理し、ユーザーは実際に構築したいものに集中できます。」

信頼できるテスター プログラムに参加していない方も、2025 年に Jules を試すためにサインアップできます。

Gemini 2.0 Flashのデモンストレーションとして、Basu Mallick氏はモデルに話しかけ、その返答を聞くという20の質問ゲームを行いました。また、ビデオストリームで指を何本立てているかを数えるよう、そして爪の色を答えるよう指示しました。どちらの場合もモデルは適切な回答をしましたが、爪の色については「ピンク」よりも「赤」の方が正確だったのではないかと思います。これはモニターの色再現の違いを反映しているだけかもしれません。

バス・マリック氏は、Gemini 2.0 Flashが、ドゥニ・ヴィルヌーヴ監督の最も長い映画5本を特定し、それぞれの上映時間を計算し、データをグラフにプロットするという複数ステップのプロンプトをモデルに処理する方法を実演しました。このタスクでは、モデルがPythonコードを生成し、サンドボックスで実行して結果を計算しました。

「これは複雑なプロンプトで、まず最初の部分を解き、次に2番目の部分を解かなければなりません」と彼女は説明した。「そして、どの部分の実行時間が最も長く、どの部分が最も短いかを計算するコードを書いて、プロットするように指示しています。」

Gemini 2.0 Flashモデル生成レシピと画像のスクリーンショット

Gemini 2.0 Flashモデル生成レシピと画像のスクリーンショット - クリックして拡大

別のデモでは、Gemini 2.0 Flashのマルチモーダルなレシピ生成機能が紹介されました。このモデルは、フライパンに材料を乗せた様子を示すビジュアルを作成し、生成されたテキストによる説明を補足することができました。

唯一欠けていたのは価格情報でした。「現時点では価格について具体的なことは言えません」とキルパトリック氏は述べました。「開発者はAI Studioを通じてマルチモーダルライブAPIと2.0モデルを無料で利用できます。来年初めに一般公開する際には、価格についても改めてお知らせします。」®

関連する Google ニュースでは...

  • このウェブ大手は、Gemini Advanced を通じて利用できる「Deep Research」というサービスを開始した。これは、「複雑な話題」について質問したり、レポートをまとめたりできるリサーチアシスタントとなることを目指している。
  • 前述のように、実験的な Project Mariner も本日発表されました。これは、選ばれたテスターが Chrome 拡張機能を介してテスターのブラウザでチャットしたり、実行するタスクを与えたりできる AI エージェントです。
  • それから、「ユニバーサルAIアシスタント」プロジェクトAstraがありましたが、これはGoogleが5月に発表して以来、まだ開発を続けています。
  • Google はまた、Gemini 2.0 の構築に使用され、5 月にも話題となった第 6 世代 TPU Trillium が、現在、一般向けに提供開始になったとも述べています。

Discover More