視覚AIモデルは、存在しない錯視を視覚的に認識する

Table of Contents

視覚AIモデルは、存在しない錯視を視覚的に認識する

視覚言語モデルは、人間の心理を反映した一種の自己欺瞞を示します。つまり、そこには存在しないパターンを見ているのです。

GPT-5をベースにしたChatGPTの現在のバージョンは、まさにそれを実現します。ハーバード大学心理学部の准教授、トマー・ウルマン氏が提案した実験を再現し、The Registerはアヒルの画像をアップロードして「これはアヒルの頭ですか、それともウサギの頭ですか?」と質問しました。

アヒルやウサギに見えるイラストに関するよく知られた錯視があります。 

ウサギでもあるアヒル

ウサギでもあるアヒル - クリックして拡大

しかし、ChatGPTにアップロードしたのはそれではありません。私たちが提供したのは、ただのアヒルの画像のスクリーンショットです。

アヒルの画像

アヒルの画像 - クリックして拡大

それでも、ChatGPTはこの画像をアヒルにもウサギにも見える錯視画像だと特定した。「これは有名なアヒルウサギ錯視で、心理学や哲学で知覚や曖昧な図形を説明するためによく使われます」とAIモデルは答えた。

ChatGPTは両方の解釈を強調表示することを提案しました。これが結果の出力であり、動物の形態を明確に表示しているというよりは、統計的なキメラのようでした。

ChatGPTによるアヒルウサギ錯視の曖昧さを解消する試み

ChatGPTによるアヒルウサギ錯視の曖昧さを解消する試み - クリックして拡大

ウルマン氏はこの現象を最近のプレプリント論文「錯覚-錯覚: 視覚言語モデルは存在しないところに錯覚を見る」で説明した。

ウルマン氏は論文の中で、錯覚は「実際のところ」と「見た目」の間のギャップを明らかにするため、認知科学、哲学、神経科学において有用な診断ツールになり得ると説明している。

また、錯覚は人工知能システムを理解するためにも利用できます。

ウルマン氏の関心は、人間であれば問題なく知覚と現実を一致させることができるのに、現在の視覚言語モデルが特定の画像を錯視と誤認するかどうかを調べることです。

彼の論文では、AI モデルが既知の錯視に似ているものの、人間にとって視覚的な曖昧さを生じさせない「錯視-錯覚」のさまざまな例が説明されている。

  • 生成AIは単なる生死の問題ではない。それよりもはるかに重要なのだ
  • GenAIのFOMOにより、企業は400億ドル近くの損失を出している
  • マイクロソフトはCopilot AIをExcelのセルに直接詰め込んでいる
  • 米国政府は、調達業務を簡素化するAIがあるかどうかを産業界に問う

彼が評価した視覚言語モデル(GPT4o、Claude 3、Gemini Pro Vision、miniGPT、Qwen-VL、InstructBLIP、BLIP2、LLaVA-1.5)は、程度の差はあれ、まさにそれを実現する。つまり、存在しない錯覚を捉えるのだ。

テストされたモデルのどれも人間のパフォーマンスに匹敵しませんでした。テストされた3つの主要な商用モデル(GPT-4、Claude 3、Gemini 1.5)は、いずれも実際の錯視を認識する一方で、錯視を誤認する結果となりました。 

他の4つのモデル(miniGPT、Qwen-VL、InstructBLIP、BLIP2、LLaVA-1.5)は、より複雑な結果を示しましたが、ウルマン氏は論文の中で、これらのモデルが自己欺瞞を起こさない能力に優れているという証拠として解釈すべきではないと警告しています。むしろ、これらのモデルの視力はそれほど優れていないと主張しています。つまり、これらのモデルは、存在しない錯覚を見てしまうというよりは、画像認識能力が全体的に劣っているだけなのです。

ウルマンの論文に関連するデータはオンラインで公開されています。

ランダムなデータの中にパターンが見える現象はアポフェニアと呼ばれ、その一形態はパレイドリアとして知られ、地形や雲などの物体の中に意味のある画像が見える現象です。

研究者らは、人間の美的嗜好に合わせて恣意的な入力を歪めるAIモデルに関連する行動を「マシン・アポフェニア」と呼ぶことを提案しているが、ウルマン氏はThe Registerへの電子メールで、全体的なエラーのパターンは比較できるかもしれないが、必ずしも適切ではないと語った。

「個人的には、(モデルが存在しない錯覚を見ることが)アポフェニアと特に同じだとは思っていません」とウルマン氏は述べた。「これらのモデルが犯す間違いと人間が犯す間違いを区別するのは一般的に躊躇しますが、もしそうしなければならないとしたら、それは異なる種類の間違い、つまり次のようなものになると思います。人はしばしば、何かについてどれだけ処理したり考えたりするかを決める必要があり、考えすぎないように近道を探そうとするのです。」 

そのため、彼らはある問題が既に知っている問題と似ていると(誤って)考え、自分が知っている解決方法を適用する可能性があります。その意味で、これは認知反射課題と関連しています。認知反射課題では、もう少し考えれば簡単に解決できるはずなのに、実際にはそうしないことが多いのです。 

言い換えれば、人々が犯す間違いは、ある問題P1と問題P2の間に高い類似性があると考えることにあります。この類似性をS(P1, P2)とします。人々はP2の解き方を知っており、P1はP2に似ていると考え、P1を誤って解いてしまいます。ここで起こっているのは、次のようなプロセスに似ているのかもしれません。機械は(誤って)画像を錯覚だと認識し、それに基づいて行動するのです。

この動作を、誤ったモデル出力を業界が擬人化した「幻覚」の一種と見たくなるかもしれません。

しかし、ウルマン氏は、モデルが錯視を誤認することを意味するこの用語を好ましく思っていない。「『幻覚』という言葉は、現在の研究ではある意味意味を失っていると思います」と彼は説明した。「機械学習/AIの世界では、かつては『原理的には正しいと言える答え、つまり、ある答えから期待される全体的な統計値と一致する答えが、真実の答えと比較するとたまたま間違っている』という意味でした」

「今では、人々は単に『間違い』という意味で使っているようです。認知科学では、どちらの用法も正しくありません。『間違い』という意味なら、確かにこれは間違いです。しかし、『ありそうな答えがたまたま間違っている』という意味なら、ありそうな答えではないと思います。」

何が起こっているかを説明するのに最適な用語が何であれ、ウルマン氏は、現在の視覚言語モデルにおける視覚と言語の断絶は、これらのモデルがロボット工学やその他の AI サービスに導入されている方法に照らして、より注意深く精査する必要があることに同意した。

「はっきりさせておきたいのは、これらの要素(視覚と言語)がまだ一致していないことを示す研究が既にたくさんあるということです」と彼は言った。「そして、確かに、これらの要素が一致して いるという前提で頼りにしようとすると、非常に心配になります。」

「『いいえ、これについてはこれ以上の研究は必要ありません。大丈夫です、ありがとうございます!』と言うような真面目な研究者は世の中にはいないと思います。」®

Discover More