OpenAIはGPT-4が試験で90%の受験者に勝つと主張している

Table of Contents

OpenAIはGPT-4が試験で90%の受験者に勝つと主張している

OpenAIは火曜日、コールアンドレスポンス型ディープラーニングモデルの作成における最新のマイルストーンであり、重要な試験において実際の作成者を上回る可能性があるGPT-4の認定された登場を発表した。

OpenAIによると、このモデルは「様々な専門的および学術的なベンチマークにおいて人間レベルのパフォーマンス」を発揮する。GPT-4は模擬司法試験で受験者の上位10%に入る成績を収めることができるが、その前身であるGPT-3.5(ChatGPTのベース)は下位10%程度の成績だった。

GPT-4は、SAT数学(800点満点中700点)など、他の様々な試験でも優れた成績を収めました。しかし、AP英語言語・作文ではわずか2点(14~44パーセンタイル)と、万能というわけではありません。

一つ考慮すべき点があります。OpenAIのGPTシリーズは、その性質上、学習済みの資料を再利用し、クエリに対応するために再構成するエンジン群です。正しい場合もあれば、間違っている場合もあります。試験の詳細を思い出せることは、それほど印象的ではないかもしれません。あるいは、人間が受けなければならないテストの種類について言及しているだけかもしれません。

「GPT-4にはまだ欠陥があり、限界があり、初めて使ったときよりも、もっと時間をかけて使ったときの方が印象に残る」とOpenAIのCEO、サム・アルトマン氏はGPT-4について認めた。

GoogleのGmailアプリを開いた状態のスマートフォン、ノートパソコン、タブレット

GoogleはChatGPTへの回答をGmail、ドキュメント、API経由のアプリなどに押し込む予定

今日も

GPT-4は、大規模な言語モデルではなく、大規模なマルチモーダルモデルです。テキストと画像入力によるクエリを受け付け、テキストで回答を返すように設計されています。当初は、待機リストに登録されているGPT-4 APIと、ChatGPT Plus加入者向けにテキストのみで提供されます。画像入力は現在改良中です。

視覚的な入力メカニズムが追加されたにもかかわらず、OpenAIはモデルの作成過程についてオープンにしておらず、その可視性も提供していません。この新興企業は、モデルの規模、学習方法、そしてプロセスに使用されたデータに関する詳細を公表していません。

「GPT-4のような大規模モデルの競争環境と安全性への影響の両方を考慮すると、このレポートには、アーキテクチャ(モデルサイズを含む)、ハードウェア、トレーニングコンピューティング、データセット構築、トレーニング方法などに関する詳細は含まれていません」と同社は技術論文[PDF]で述べている。

YouTube のライブ ストリームで、OpenAI の社長兼共同創設者である Greg Brockman 氏は、モデルに OpenAI GPT-4 のブログ投稿を、すべての単語が文字「G」で始まる 1 つの文で要約するように依頼し、GPT-4 と GPT-3.5 の違いを実演しました。

GPT-3.5は単に試みなかった。GPT-4は「GPT-4は画期的で壮大な成果を生み出し、汎用AIの目標を大いに刺激する」と返した。そして、ブロックマン氏がモデルに「AI」という単語が文中に含まれているかどうかは考慮されないと伝えると、GPT-4は「AI」を含まない別のGを含む文に回答を修正した。

その後、彼はGPT-4を使ってDiscordボットのPythonコードを生成させました。さらに驚くべきことに、彼は手描きのジョークウェブサイトのモックアップを写真に撮り、その画像をDiscordに送信すると、関連付けられたGPT-4モデルがHTMLとJavaScriptコードを返して、モックアップサイトを実現しました。

最後に、ブロックマン氏はGPT-4を設定して16ページにわたる米国税法を分析し、特定の経済状況にあるアリスとボブという夫婦の標準控除額を算出しました。OpenAIのモデルは正しい答えと、関連する計算の説明を返しました。

  • GoogleはChatGPTへの回答をGmail、ドキュメント、APIなどに注入している。
  • GPT-4は今週発売予定、マイクロソフトドイツCTOが漏らす
  • Metaのメガ言語モデルが漏洩しLLaMAが大騒動
  • 「ロボット弁護士」DoNotPayは目的に適していないと苦情が主張

GPT-4 は、テスト スコアの向上からも明らかなように、推論能力の向上以外にも、より協調的 (指示に従って反復して以前の出力を改善する)、大量のテキストの処理能力の向上 (約 25,000 語の中編小説ほどの長さのチャンクを分析または出力)、画像ベースの入力の受け入れ能力の向上 (オブジェクト認識用ですが、その機能はまだ公開されていません) を目指しています。

さらに、OpenAI によれば、GPT-4 は前身のものよりも軌道から外れる可能性が低いはずだ。

「私たちは、敵対的テストプログラムとChatGPTから得た教訓を活用して、GPT-4を6か月間繰り返し調整し、事実性、操縦性、ガードレールの外に出ないことに関してこれまでで最高の結果(完璧には程遠いが)を達成しました」と同組織は述べている。

この「完璧には程遠い」安全性のレベルについては、Microsoft Bing の質問回答機能のデビューがうまくいかなかったことからすでにご存知の方もいるかもしれません。Bing の質問回答機能は、Prometheus モデルの基盤として GPT-4 を使用していることが判明しています。

OpenAIは、GPT-4が先祖同様「事実を幻覚化し、推論エラーを起こす」ことを認めているが、同組織は、このモデルがそうする程度はより低いと主張している。

GPT-4は以前のモデルに比べて幻覚を大幅に軽減します

「GPT-4は依然として現実的な問題ではあるものの、以前のモデル(それ自体も各イテレーションで改善されてきました)と比較して幻覚を大幅に軽減しています」と同社は説明しています。「GPT-4は、社内の敵対的事実性評価において、最新のGPT-3.5よりも40%高いスコアを獲得しています。」

GPT-4の料金は、プロンプトトークン1,000個あたり0.03ドル、補完トークン1,000個あたり0.06ドルです。トークンは約4文字です。また、デフォルトのレート制限は1分あたり40,000トークン、1分あたり200リクエストです。

また、OpenAI は、独自のモデルを含む機械学習モデルを評価およびベンチマークするためのプログラムである Evals をオープンソース化しました。

AIのリスクに対する懸念が依然として高いにもかかわらず、AIモデルの市場投入が急ピッチで進められています。GPT-4が登場した同日、OpenAIの元従業員が設立したスタートアップ企業Anthropicは、テキストの要約と生成、検索、Q&A、コーディングなどを扱う独自のチャットベースのヘルパー「Claude」を発表しました。こちらも限定プレビュー版として利用可能です。

また、AP モデルのマーケティングで遅れをとることを懸念した Google は、さまざまな大規模言語モデルと対話するための PaLM と呼ばれる API と、MakerSuite と呼ばれるプロトタイピング環境の展開を予告しました。

数週間前、Facebook は LLaMA 大規模言語モデルを発表しましたが、これは現在、スタンフォード大学の研究者によって Alpaca モデルに変換されており、The Register では後ほど詳しく取り上げる予定です。

「まだやるべきことはたくさんあるが、モデルの構築、調査、貢献を行うコミュニティの共同の努力を通じて、このモデルを改善していくことを楽しみにしている」とOpenAIは結論付けた。®

Discover More