OpenAIによると、ネイティブマルチモーダルGPT-4oはテキスト、ビジュアル、サウンドを取り込み、同じものを出力する。

Table of Contents

OpenAIによると、ネイティブマルチモーダルGPT-4oはテキスト、ビジュアル、サウンドを取り込み、同じものを出力する。

OpenAIは月曜日、最新のマルチモーダル機械学習モデルであるGPT-4oを披露し、ChatGPTサービスとAPIを通じて無料および有料の顧客に部分的に提供した。

「本日のビッグニュースは、新たなフラッグシップモデルをリリースすることです。GPT-4oと名付けました」と、OpenAIのCTOであるミラ・ムラティ氏はストリーミングビデオプレゼンテーションで述べた。「GPT-4oの特別な点は、無料ユーザーを含むすべての人にGPT-4レベルの知能を提供できることです。」

このスーパーラボは、macOS用のデスクトップアプリも発表しました。これは本日Plusユーザー向けに提供開始され、今後数週間で他のユーザーにも公開されます。また、ChatGPTのウェブユーザーインターフェースもアップデートされました。予告通り、AI検索エンジンについては何も言及されていませんでした。

GPT-4oの「o」は、マイクロソフトが支援するOpenAIによると「omni(オムニ)」の略で、このモデルが視覚、音声、テキスト入力を受け付け、ユーザーのプロンプトやリクエストに応じてこれらのモードのいずれかで出力を生成する能力を指しています。OpenAIが言う「視覚」とは、動画と静止画を指します。

音声入力への応答は、以前のモデルよりもはるかに優れています。GPT-3.5またはGPT-4の音声パイプラインには、文字起こし用、テキスト処理用、テキストを音声に変換する3つのモデルが含まれていたため、音声モードの使用には遅延が発生していました。そのため、これらの個別のモデル間でデータが流れる際に、数秒の遅延が発生することが一般的でした。

GPT-4o はこれらの機能を 1 つのモデルに統合しているため、応答が速くなり、以前のバージョンではモデル内転送では取得できなかった声のトーン、複数の話者、背景ノイズなどの情報にアクセスできるようになります。

ただし、安全上の懸念から、モデルの全ての機能がすぐに利用できるわけではありません。GPT-4oのテキストと画像の機能は、ChatGPTの無料プランユーザーと、5倍の使用制限が適用される有料プランPlusのお客様がご利用いただけます。TeamsおよびEnterpriseプランのお客様は、さらに高い使用制限が適用されます。

改良された音声モードは、数週間以内に ChatGPT Plus 内でアルファ テストに入る予定です。

OpenAI の API サービスを使用する開発者は、GPT-4 Turbo よりも 2 倍高速で、価格が半分で、レート制限が 5 倍高いと言われる GPT-4o のテキストおよびビジョン機能にもアクセスできるはずです。

API を使用すると、今後数週間でオーディオとビデオの機能が少数のパートナーに限定されます。

「GPT-4oは、リアルタイムオーディオとリアルタイムビジョンを扱うため、安全性に関して新たな課題を提示しています」とムラティ氏は述べた。「私たちのチームは、悪用に対する軽減策を組み込む方法を見つけるために懸命に取り組んできました。」

OpenAIのCTO、ミラ・ムラティ氏

背景のどこまでが現実なのか気になるところです…CTOのミラ・ムラティが今日のプレゼンテーションで語った

そうした対策の 1 つは、少なくとも当初は、音声出力を特定の声のセットに制限することです。これは、声のなりすまし詐欺などのシナリオを排除するためだと考えられます。

  • AI研究者が幼児にGoProを装着させる理由とは?詳しく見​​てみよう
  • AIレッドチームツールの活用でX-Forceは大手テクノロジーメーカーに「8時間以内」で侵入
  • IBMコンサルティングがマイクロソフトのCopilotを買収、今度は顧客にも同様の支援を提供
  • TikTokはAIコンテンツに透かしを入れることを義務付ける初のプラットフォームとなる

OpenAI によれば、GPT-4o は、その準備フレームワークでカバーされているカテゴリにおいて、中程度のリスク以下に評価されています。

新しい主力モデルは当然のことながら、ライバル製品に対して優れたスコアを獲得しており、リストされているベンチマークのほとんどで GPT-4T、GPT-4、Claude 3 Opus、Gemini Pro 1.5、Gemini Ultra 1.0、および Llama3 400b を上回っているようです (テキスト: MMLU、GPQA、Math、および HumanEval)。

Google の年次開発者会議が明日始まりますが、Android の巨人のエンジニアたちは現在、OpenAI の製品アップデートを考慮してプレゼンテーションを見直しているところだと思われます。

OpenAIのイベントで、ムラティ氏はOpenAIの最先端研究責任者であるマーク・チェン氏と、トレーニング後チームの責任者であるバレット・ゾップ氏をステージに招き、今後数週間にわたって展開される新しい機能を実演した。

ムラティ氏がイタリア語、チェン氏が英語で話すリアルタイム音声翻訳を披露しました。現地の言葉を話さない旅行者にとって歓迎されるであろう機能の、入念に演出されたとはいえ、印象的なデモでした。

GPT-4oのプログラミングコードの読み取りと解釈能力も有望視されていますが、Pythonベースの温度グラフ作成デモは、熟練したPythonプログラマーであれば簡単に説明できるでしょう。ただし、初心者にはAIによるガイダンスが役立つかもしれません。なお、OpenAIはモデルに、縮小されたJavaScriptや難読化されたマルウェアを解読するよう求めていません。

チェン氏が不安に対処するためにGPT-4oに相談した別のデモでは、モデルがチェン氏の速い呼吸を認識し、落ち着くように指示したため、より刺激的な内容となりました。また、モデルは要求に応じて生成した音声をよりドラマチックにすることで、感情を模倣しました。

OpenAIが、顧客が購入を促したり、あるいは何らかの行動を促したりするために、口調や感情の模倣を利用できるようにしてくれるかどうかは興味深いところです。懇願するような、あるいは威圧的なAIアプリケーションは、中立的な朗読よりも良い結果を生み出すのでしょうか?そして、倫理的なガードレールは、感情を操作しようとするAIの応答を阻止できるのでしょうか?

OpenAIは「GPT-4oのオーディオモダリティにはさまざまな新しいリスクがあることを認識している」と述べ、GPT-4oのシステムカードをリリースする際に詳細を明らかにすると約束した。®

PS:はい、GPT-4o はまだ幻覚を起こします。また、GPT-5 がないということは、OpenAI が収益減少の段階に達していることを示唆しているのでしょうか?

Discover More