AI モデルは、テキストや画像で指示された場合は十分に対応でき、大きなエラーが発生しない場合は複雑な問題を解決することさえできる可能性があります。
例えば、OpenAIは、自社のGPT-4モデルがSAT数学試験で800点満点中700点を獲得したと発表しました。しかし、こうした主張のすべてが裏付けられたわけではありません。6月に発表された、GPT-4がMITでコンピュータサイエンスの学位を取得できる可能性があるとする論文は、その後撤回されました。
そこで、テキスト入力を解釈する大規模言語モデルと、テキスト、画像、場合によっては他の形式の入力を解釈する大規模マルチモーダルモデルが実際に問題解決をどのように処理するかをより適切に評価するために、カリフォルニア大学ロサンゼルス校、ワシントン大学、および Microsoft Research の 10 人の研究者グループが、視覚指向の課題に焦点を当てた MathVista と呼ばれるテストベンチマークを考案しました。
「視覚的なコンテキストで数学的推論を実行するこれらの基礎モデルの能力は、体系的に調査されていません」と、著者である Pan Lu、Hritik Bansal、Tony Xia、Jiacheng Liu、Chunyuan Li、Hannaneh Hajishirzi、Hao Cheng、Kai-Wei Chang、Michel Galley、および Jianfeng Gao はプレプリント論文 [PDF] の中で述べています。
そのため、視覚的な要素を含む数学的推論の発達を支援し、推論タスクにおいてさまざまなモデルを比較評価するための新しいベンチマークを開発することが不可欠だと彼らは述べています。
AI モデルが視覚的な問題を正しく解決できることを示すことができれば、たとえば、事故の犠牲者の上に止まることなく車を運転するソフトウェアを信頼することが賢明かどうかを判断するのに役立つ可能性があります。
MathVistaには、28のマルチモーダルデータセットと、IQTest、FunctionQA、PaperQAという3つの新しいデータセットから開発された6,141の例題が組み込まれています。図形に関する質問への回答、幾何学の問題解決、数学の文章題、教科書問題、視覚的な問題を中心に、様々な推論形式(代数、算術、幾何、論理、数値、科学、統計)を網羅しています。
プレプリント論文からの MathVista チャレンジ問題のスクリーンショット ... クリックして拡大
研究者たちは12の基礎モデルをテストした。内訳は、ChatGPT、GPT-4、Claude-2の3つのLLM、GPT4VとBardの2つのプロプライエタリLMM、そして7つのオープンソースLMMである。また、高校卒業以上の学歴を持つAmazon Mechanical Turkersから提供された人間の回答とランダムな回答も検討した。
- AWS CEO、ウォール街の人々の関心を集めるためにAIを推奨
- Windows アップデート プレビューの最前線に Clippy のような AI が登場
- バグバウンティハンターはAIを追跡し、大金を狙う
- プロンプトインジェクション攻撃が今日の最先端AIを乗っ取る仕組みと修正の難しさ
AI 実践者にとって朗報なのは、LLM と LMM のいずれもランダムな偶然よりも良い結果を出したことです。これは、質問の多くが「はい」か「いいえ」ではなく複数選択形式だったことを考えると、それほど驚くことではありません。
実際、最高のパフォーマンスを示した OpenAI の GPT-4V は、代数的推論を伴う質問や、表や関数のプロットを伴う複雑な視覚的課題など、特定の領域で人間のパフォーマンスを上回ることに成功しました。
このプロジェクトに貢献した研究者を擁する Microsoft が、OpenAI に多大な投資を行っている点に注目します。
あまり良くないニュースとしては、GPT-4Vでさえ正解率が49.9%にとどまったことです。しかし、マルチモーダルBard(正解率は34.8%)を上回ることを目標としているのであれば、これは十分な数字です。
しかし、この精度は、テストを受けたAmazon Mechanical Turkの作業員が60.3%という高いスコアを叩き出した結果には及ばない。研究者らは論文の中で、「人間の基準値と比較すると、全体的な精度には10.4%の差が残っており、モデルの改善の余地は十分に残されている」と指摘している。®