大規模言語モデル (LLM) の新しいベンチマークは、最新のモデルでさえ最高のチェス プレイヤーではないことを示しています。
開発者であるソフトウェアエンジニアのウラジミール・プレロヴァック氏によって「LLMチェスパズル」と名付けられたこのGitHubプロジェクトは、LLMに1,000個のチェスパズルを解かせることでテストを行います。通常のチェスゲームとは異なり、パズルは基本的にチェス盤の状態が特定の方法で設定された論理問題です。チェスパズルの目的は、最善の一手、あるいは一連の動きを繰り出し、可能な限り速く、そして止められないチェックメイトを達成することです。
チェスのゲームでは他のプレイヤーに対する意思決定が試されますが、チェスパズルは論理的推論とチェスの仕組みの理解が試されるため、より難しい AI ベンチマークになります。
「大規模言語モデルの提供者は独自のパフォーマンスベンチマークを共有していますが、過剰適合によってこれらの結果は誤解を招く可能性があります」とプレロヴァック氏はThe Registerに語った。「つまり、モデルは特定のテストで優れたパフォーマンスを発揮するように調整されているかもしれませんが、必ずしも現実世界の有効性を反映しているわけではありません。」
このベンチマークのGitHubには、OpenAI(GPT-4oを含む)、Anthropic、Mistralなどの現在最も人気のあるLLMの多くについて、パフォーマンスデータが掲載されています。ほとんどのモデルは、スキルレベルを表す数値であるEloレーティングにおいて、悲惨な結果となりました。ほとんどのLLMは100~500の範囲にとどまり、これはチェス経験のほとんどないプレイヤーの領域であることは明らかです。これには、Claude 3の亜種、GPT-3.5 Turbo、Mistralのモデルが含まれます。
Gemini 1.5 Pro は、プロンプトの文言に関係なく、応答を単に動きを言うようにフォーマットすることができなかったため、完全に失敗しました。
しかし、あるAIファミリーが他を圧倒しました。GPT-4とGPT-4 Turbo Previewモデルは、それぞれ1,047と1,144のEloスコアを獲得し、平均を上回りました。特に優れたのはGPT-4oで、Eloスコアは1,790でした。これはアマチュアレベルとしてはまずまずですが、エキスパートレベル(2,000から)には達していません。
イロ計算はプレロヴァック氏にとって必ずしも容易なものではなかった。彼はThe Register紙に対し、これらのLLMはルークを斜めに動かしたり、自分の駒を取ったりといった違法または許可されていない動きをする傾向があると語った。GPT-4oでさえ12.7%の確率で違法な動きをしており、他のLLMのほとんどは合法的な動きよりも違法な動きを多くしていた。
GPT-4oは1,000個のパズルのうち501個で最善の手を見つけることができました。例えば、このパズルでは、白の最善の手はルークをc8、つまり黒のクイーンのすぐ隣に動かすことです。しかし、ルークは白の白マスのビショップの視界内にあるため、クイーンはルークをただで奪うことはできません。一方、黒はクイーンを移動させることができません。そうするとキングがチェックメイトされてしまうからです。そのため、黒はクイーンの損失を認めざるを得ません。
GPT-4o がチェスパズルを解く例 – クリックして拡大
一方、GPT-4oは、このパズルのように、実に突拍子もない動きを試みることもできました。ここでは、黒は2手以内に確実にチェックメイトできます。最初の手は、黒マスのビショップをh2に動かしてキングをチェックすることです。しかし、GPT-4oはその動きの代わりに、e1にあるルークをe3に動かしたいと指示しましたが、e1にはルークが全くありません。
GPT-4oはこのパズルを正解できなかった – クリックして拡大
たとえ、ルークが実際には e2 にあり、e3 で捕獲されていることを正しく理解していたとしても、確実にチェックメイトされることが白に対して不利になってしまいます。
LLMは実際の知能の欠如によりチェスで苦戦している
GPT-4oがかなり高いレベルでプレイできるにもかかわらず、不正な動きをすることでいくつかのパズルを失敗してしまうというのは矛盾している。チェスのルールを学ぶのは難しくなく、初心者でさえ不正な動きをする可能性はそれほど高くない。実際、不正な動きをカウントしなければ、GPT-4oのEloは2,000を超え、これはナショナルマスターの基準となる数値だとプレロヴァック氏は言う。
- Googleがついに奇妙なAI検索結果に対処
- OpenAIは、5つの効果のないAI秘密影響力作戦を阻止したことに満足している
- AIの未来:NVIDIAの研究者は「動くものはすべて最終的には自律的になる」と期待
- 元OpenAI理事がサム・アルトマン氏を「完全に嘘をついている」と非難
「これらのモデルが知性や推論の真の一般化を示していないのは、少し残念ではあるものの、予想通りだ」と彼は述べた。「特定のタスクをうまくこなすことはできるものの、人間の知能のような幅広く適応力のある理解力や問題解決能力はまだ示していない」
LLM の本質は、意味のあることを書き出すことを目的とした統計モデルの大きな束のままです。
これを説明するために、プレロヴァック氏はチェスよりもはるかに簡単とされるゲーム「コネクトフォー」でもLLMをテストしました。しかし、GPT-4oでさえ、相手が4つの駒を繋げるのを阻止する必要があるタイミングを理解できませんでした。プレロヴァック氏は、そのパフォーマンスは4歳児と同等だと説明しました。
「唯一の結論は、この失敗の原因はトレーニングデータにプレイされたゲームの履歴記録が欠けていることにあるということです」と彼は述べた。「これは、これらのモデルが言葉のいかなる意味でも『推論』できると主張することはできず、トレーニング中に見たもののバリエーションを出力しているに過ぎないことを意味します。」
GPT-4oがチェスで顕著な改善を記録したにもかかわらず、依然として不正な動きをしていた理由について、プレロヴァック氏は、マルチモーダルトレーニングが何らかの関係があるのではないかと推測した。OpenAIのトレーニングデータの一部には、チェスのプレイ中の映像が含まれていた可能性があり、これによりAIは純粋なテキストよりも盤面を視覚化しやすくなる可能性がある。
技術的には、GPT-4oは指したい手を書き出す際に、フォーサイス・エドワーズ記法(FEN)で正しくフォーマットしますが、たとえそれが理にかなった手であっても、それが最善の手である、あるいは合法であるとは限らないことをモデルは理解していません。個々のチェス手が複数のトークンに分割されると、特にLLMの推論能力が損なわれる可能性があります。
「チェスの動きさえも、『e』や『4』のようなトークンの連続に過ぎず、現実には何の根拠もありません」とプレロヴァック氏は述べた。「それらは訓練データの統計分析の結果であり、それに基づいて次のトークンが予測されるのです。」
ポーンをe4へ動かすのとポーンをe5へ動かすのとでは、人間には違いが明らかです。どちらの動きもチェスのゲームを全く異なる方向に導き、単純に入れ替えることはできないからです。しかし、LLMは統計に基づいて次の数字を選択する可能性があり、e2にあるルークではなく、e1に存在しないルークを動かそうとするかもしれません。
今のところ、LLMはStockfishのようなチェスエンジンのようにチェスをプレイすることはできません。しかし、より多くの学習データがあれば、LLMの能力が向上する可能性があります。特に、序盤の手や、盤上の駒が少なく、数手先でチェックメイトが見通せるようなゲームでは、その可能性は高まります。ゲームの中盤では、LLMが不正な手を出すのを防ぐには、非常に膨大な量のデータが必要になるかもしれません。®