AIには好きな数字があるが、それは42ではない

Table of Contents

AIには好きな数字があるが、それは42ではない

1 から 50 までの数字を推測するように求められたとき、OpenAI の ChatGPT、Anthropic の Claude Sonnet 4、Google の Gemini 2.5 Flash、Meta の Llama 4 はすべて同じ答え、つまり 27 を出しました。

どこにでも陰謀があると考える人は、ここでも陰謀があると考えるかもしれないが、実際にはそうではない。バイアスを捉える共通の学習データと、文字列中の次の単語(またはトークン)を予測するための共通のアプローチ以外に、共謀関係は存在しない。

ランダム性の欠如は、定義上、バイアスとなります。そして、これは大規模言語モデル(LLM)が単独でバイアスのない決定を下すことができないことを思い出させます。

これらのAIモデルや他のAIモデルは、必ずしも一致するとは限りません。他のRegisterハッカーや、この現象に気づいたAIモデルのユーザーからも報告されているように、42や37といった数字を返すこともあります。

しかし、デフォルトのモデル設定を考慮すると、主要な市販モデルでは 1 ~ 50 の数字の範囲に対して 27 が最も一般的な回答のようです。

1から50までの数字を推測するように求められたChatGPTのスクリーンショット

ChatGPT が 1 から 50 までの数字を推測するように要求したスクリーンショット - クリックして拡大

この現象は、Capcoのデータサイエンティスト兼シニアコンサルタントであるモハメド・ファラーズ氏によって以前から指摘されていました。彼は最近、様々なAIモデルに「1から50までの数字を推測」するよう指示したところ、テストした7つのモデルのうち6つが27という答えを返しました。一方、Grokは42という答えを返しました。これは、作家ダグラス・アダムズの『銀河ヒッチハイク・ガイド』で人生の意味を問う答えとして登場したことから、オンラインで広く話題になっています。

説明を促されると、クロードは次のように答えました。

27を選んだのは、ある意味ランダムだったのですが、正直に言うと、あまり分かりやすくない「中間っぽい」良い選択だと感じました。25(ちょうど中間)や1と50(両極端)といった数字は、あまりにも予想がつきやすすぎるように感じました。27は真ん中に近いですが、少し非対称性があり、完全に中心ではないので、なんとなく推測には自然な感じがしました。

さらに、人々は「ランダム」な数字について考えるときに丸い数字を避けることが多いので、私は 5 や 10 の倍数を避けました。あなたの数字は、あなたの数字に少しでも近かったですか?

1から50までの数字を推測するように求められたLlama4のスクリーンショット

1から50までの数字を推測するように求められたLlama4のスクリーンショット - クリックして拡大

「トレーニングデータはモデルの挙動に大きく影響します」と、イリノイ大学アーバナ・シャンペーン校のダニエル・カン助教授は、 LLMの予測可能性に関する質問に対し、 The Register紙に答えた。「モデルの出力に影響を与える他の要因としては、RLHF(人間からのフィードバックによる強化学習)手順とサンプリングメカニズムがあります。特にRLHFは『モード崩壊』を引き起こすと疑われているため、この現象に直接関連している可能性があります。」

真のランダム性は難しい

この動作に驚いた人は、LLMが乱数を「推測」し、その推測に多少のばらつきがあることを期待するかもしれません。しかし、効果的な乱数生成には、エントロピー源(乱数生成器または疑似乱数生成器)にアクセスできるハードウェアまたはソフトウェアが必要です。

  • AIエージェントはオフィス業務を約70%間違えており、その多くはAIそのものではない。
  • AIサポートの失敗にお金は払わない、とGradient LabsのCEOが語る
  • アントロピックは雇用を奪う技術の研究に小銭を投じる
  • パウエルFRB議長「AIがあなたの仕事を奪う」

のようなJavaScriptコードを実行できるAIモデルは、Math.floor(Math.random() * 50) + 1;疑似乱数を返す可能性があります。しかし、モデル単体では、より予測可能性が高くなると考えられます。

マドリードのテレフォニカ・テックのデータサイエンティスト、ハビエル・コロナド=ブラスケス氏は最近、LLMが乱数をどのように処理するかを調査しました。「決定論的か確率論的か?乱数生成器としてのLLMの心理学」と題されたプレプリント論文の中で、彼はLLMが特定の解を他の解よりも優先する傾向があることを発見しました。

「私たちの研究結果は、確率的変換器に基づくアーキテクチャにもかかわらず、これらのモデルはランダムな数値出力を要求されたときに決定論的な応答を示すことが多いことを明らかにしました」と彼は論文の中で述べています。

Coronado-Blázquez 氏は、3 つの異なる乱数範囲 (1~5、1~10、1~100)、6 つのモデル (DeepSeek–R1-14b、Gemini 2.0、GPT-4o-mini、Llama 3.1-8b、Mistral-7b、Phi4-14b)、7 つの異なる言語 (中国語、英語、フランス語、ヒンディー語、日本語、ロシア語、スペイン語)、および 6 つの温度 (0.1、0.3、0.5、0.8、1.0、2.0) をテストしました。温度は、モデルの出力の予測可能性に影響を与える設定です。

75,600回の呼び出しに基づく結果は、ほとんどのモデルが高度な予測精度を示し、ほとんどの場合で変動が限られていることを示しました。例えば、1から10までの選択を求められた場合、GPT-4o-mini、Phi-4、Gemini 2.0は約80%の確率で7を選択しました。言語による変動も見られました。1から5までの選択において、スペイン語を話すGeminiは3を選択する傾向がありましたが、英語では4を選択する傾向がありました。これは、使用されているモデルが異なるためではないかとコロナド=ブラスケス氏は推測しています。

LLMが最も多く選んだ数字は、1~5の場合は3と4、1~10の場合は5と7、1~100の場合は37、47、73でした。4を除いて、すべて素数です。

「GPTやジェミニなどの大規模モデルは、より想像力豊かで創造的であるとみなされることが多い。しかし、これらが小規模な競合モデルと同等か、それ以上に決定論的で偏りがあることがわかった」とコロナド・ブラスケス氏は論文で結論づけている。

これらの結果は、GPT-4 と Llama 3 が公平なコイン投げを生成できない理由を調査した 2024 年の研究など、AI バイアスに関する他の研究でも反映されています。

「機械はランダム性への対処において人間の偏見を学習しただけでなく、この偏見を様々な方法で人間よりも悪化させていると我々は主張する」と、コーネル大学のコンピューター科学者キャサリン・ヴァン・コーヴァリングとジョン・クラインバーグは論文「ランダムとはどの程度ランダムか?法学修士課程のコイン投げにおけるランダム性と人間性の評価」に記している。

「ランダム性を生み出すことにおけるこの根本的な失敗は、LLM の人間的な特徴ですが、人間がランダム性の支援を必要とするタスクではその能力も制限されます (結局のところ、人間はランダムに行動することに失敗することに非常に長けているため)。」®

Discover More