大規模推論モデルに圧力をかけると、意味をなさなくなると科学者は言う

意見オタク界における永遠の戦争の中で、SFとファンタジーの違いを定義することは、宇宙の熱的死よりも長く生き残る運命にある厄介な問題である。

正解はなく、どちらでも構わない。だからこそ、この質問は根強い人気を誇っている。しかし、その明確な定義付けを試みることは、IT業界の誇大宣伝を分析する際に依然として有用である。約束は技術的に実現可能なのか、それともドラゴンに乗る妖精が先に実現するのか？そう、AI、また君のことを話しているんだ。

ITスタッフが自らのエージェント型デジタルツインを作成し、えーっと、個人的にやらなければならない面倒な作業の量を減らすべきだという提案を見てください。もしそれがうまくいけば、アフリカに象を補充できるほどの象がいる部屋になるでしょう。もしあなたの双子が失敗したら、誰が責任を負うのでしょうか？「面倒な仕事」と「仕事」の違いは何でしょうか？あなたが辞めたら、双子の所有者は誰になるのでしょうか？これらの人々は誰もファンタジアの魔法使いの弟子のパートを見たことがないのでしょうか？幸いなことに、そこからもっと良い疑問が生まれます。このアイデアはSFなのかファンタジーなのか、そしてすべての優れたスペキュレイティブ・フィクションと同様に、歴史と論理がそれを判断するのに役立ちます。

大量生産の世界における手作りソフトウェアの事例

まず歴史から。この提案自体は目新しいものではなく、80年代半ばに起きた壮大なAIの失敗、エキスパートシステムの再現に過ぎない。当時話題になっていたLisp（膨大な概念データのリストを扱って正しい結論を導き出すように設計された言語）と、ドメインエキスパートの作業方法を分析することで得られる学習を組み合わせるというアイデアだった。刺激的なアイデアで、資金も流入した。ついに真のAIの登場だ！残念ながら、真のAIは実現せず、この分野全体が、単にうまく機能しないという高度な技術的な理由によって静かに消滅した。

80年代の技術が不十分だったというわけではない。初期の成果は有望で、ムーアの法則は指数関数的に発展し、資金も潤沢に流入していた。それに、2025年のデジタル世界は信じられないほど強力になっており、やろうと思えばLispを超光速で動作させることだってできる。だが、誰もそんなことは望んでいない。

問題は、人間がどのように専門的な判断を下すのかが明確でないことでした。私たちは配列やフローチャートで構成されているわけではなく、何十年にもわたる経験を、それを所有し活用する脳から吸い上げることはできません。だからこそ、熟練した人間による15年以上のフルタイム教育を受けた新卒者が、最初の仕事ではあまり優秀ではないのです。AIではこの問題を解決できません。

たとえ脳のボトルネックを解消できたとしても、AIは、たとえどれほど未熟な人間であっても、誰かのデジタルツインになるほどには程遠い。SFの世界では、機械や技術の進歩とともに、AIは時間とともにそうなる可能性は十分に考えられる。しかし、ファンタジーの世界では、ガンダルフのようなリーダーがいなければ、AIはもはや存在し得ない。近いうちにAIの尖った帽子を買わなければならない兆候は数多くある。AIは今でさえ期待に応えられておらず、AIをさらに発展させようとする試みもうまくいっていない。

私たちはこれを知っています。なぜなら、検索など、日常生活におけるAIの実際の成果には、改善されていない、あるいはむしろその逆のことが起きているからです。不適切なトレーニングによるAIモデルの崩壊は、モデルを大きくしても改善されません。特にあなたは、AI実験の中心にいるITプロフェッショナルであり、AIコーディングの成功と失敗を熟知しているからです。構成要素やコンポーネントを見つけてつなぎ合わせることは、AIを誤作動させないために役立ちます。一方、機能分析を行い、新しい問題に対する新しい解決策を生み出すことは、それほど重要ではありません。

AIの世界は必ずしもバラ色ではないという、経験に基づく逸話的な疑念は、実際の分析によって裏付けられています。Appleの研究者たちは、OpenAIのo1/o3やDeepSeek-R1といった、推論能力を強化した最先端の大規模言語モデル（LMM）――大規模推論モデル（LRM）――に複雑度に応じて異なるタスクを与え、問題解決能力を検証した論文[PDF]を発表しました。その中には、古典的な「ハノイの塔」のディスク積み上げ問題や、キツネとニワトリを川に渡して太ったキツネとニワトリを一緒に渡さないといった推論テストもあります。

最も複雑度の低い問題では、LLMがLRMを上回る結果を示すことが多かった一方、中程度の複雑度のクエリではLRMの方が優れた結果を示しました。最も複雑な問題では、LRMでさえ壁にぶつかり、基本的に役に立たない結果を出し、時には完全に諦めてしまうこともあり、全てを破ってしまう可能性がありました。研究者がLRMにパズルを解くために必要なアルゴリズムを正確に与えた場合でも、この傾向は変わりませんでした。

簡単に言えば、ある一定の複雑さを超えるとモデルは破綻する。研究者らは、「特に懸念されるのは、問題が臨界複雑度に近づくにつれて推論の労力が直感に反して減少することであり、これはLRMに固有の計算スケールの限界を示唆している」と結論付けている。さらに、問題によってパフォーマンスが大きく異なることを考慮すると、LRMが汎用的な推論マシンになり得るという仮説は、現時点では正当化できないと研究者らは述べている。

盗まれた携帯電話をクラウドからブロックすることは可能、行うべき、そして行われない
AIの膨大なエネルギー消費は抑制できるが、それは水平思考を通してのみ可能だ
人類が反撃の準備を整える中、AIの誇大宣伝は悪夢に見舞われる
WindowsはOSではなく、中毒になりそうな悪い習慣です
大手AIビジネスベンダーとして、AIビジネスに関する誤った意思決定をしていませんか？私たちがお手伝いします

もちろん、これは現在の最先端技術と研究者が選択したアプローチを反映しています。しかし、論文内の多くの引用文献を辿ってみると、これらの懸念は特異なものではなく、むしろ最先端のAIにおける一貫した幅広い知見の一部であることがわかります。特に、LRMの基盤となる自己反省には理解されていない限界があるように思われること、そしてAIの性能を評価するにはタスクベースのテストがベンチマークよりもはるかに優れていることが指摘されています。当然のことながら、これらのどちらもAIマーケティングには反映されていません。どちらも真実であり、データポイズニングによるモデルの崩壊や、持続的な幻覚も同様です。

これらは未解決の問題であり、AIが信頼できるツールとして、そして今後ますます進化していくという予測の方向性に真っ向から疑問を投げかけています。AI自体が思考しているという幻想を与えるのと同様に、これは幻想であり、どちらも大きな危険をはらんでいます。擬人化は売れる一方で、人を殺してしまうこともあります。

IT業界にとってのプラス面は、AIという炭鉱において、開発者が擬人化され奇妙な格好をしたカナリアのような存在であることです。すべての業界が、製品版コード生成における機能テストと品質テストの緊密に統合された体制を備えているわけではありません。

物事がうまく機能しているかを報告し、研究者によって発見された問題点が現実世界でどのように展開しているかを示すことは、道徳的義務です。世界中のオタクたちは、現実がコスプレに変わり、SFがファンタジーになる時を誰よりもよく知っています。どちらのジャンルにも求められるように、これらの力を善のために使いましょう。救うべき世界があります。®

大規模推論モデルに圧力をかけると、意味をなさなくなると科学者は言う

Table of Contents

大量生産の世界における手作りソフトウェアの事例

Discover More

英国デジタル情報法案：Brexit の恩恵か、データ災害か？

英国はサイバー専門家に首相以上の給料を払うべきだと最高公務員が主張

ディスクドライブ大手WDが新興企業Skyeraに資金援助

Table of Contents

大量生産の世界における手作りソフトウェアの事例

Smart Recommendations

Discover More