GPT-4はDoomを実行できないが、ゲームプレイは劣悪になるだろう

ショットガン小屋に住んでいるかもしれない。そしてGPT-4を使って仕事をしているかもしれない。そして「GPT-4でDoomは動くのか？」と自問するかもしれない。そして「私の考えは正しいのか？間違っているのか？」と自問するかもしれない。

マイクロソフトの主席応用科学者であり、英国ヨーク大学の研究者でもあるエイドリアン・デ・ウィンター氏は、最近の研究論文「GPT-4 は Doom を実行するのか?」でこれらの疑問を提起しました。

残念ながら、Microsoft が支援する OpenAI の大規模言語モデルである GPT-4 には、Doom のソースコードを直接実行する能力がありません。

しかし、そのマルチモーダル版である GPT-4V は、入力としてテキストだけでなく画像も受け入れることができ、数え切れないほどの AI スタートアップを生み出してきた問題の多いテキストベースのモデルと同じように、Doom をプレイする愛すべきサブコンピテンシーを示しています。

「論文の設定では、GPT-4（およびビジョン付きGPT-4、つまりGPT-4V）は、入力サイズに制限があるため、単独でDoomを実行することはできません（そして当然のことながら、おそらく勝手に何かを作ってしまうでしょう。コンパイラが5分ごとに幻覚を起こすのは望ましくありません）。」と、de Wynter氏は論文の説明文に記している。「とはいえ、E. ColiやNotepadといった他の『Doomが動くか？』という実装とは異なり、GPT-4はエンジンのプロキシとして機能することは間違いありません。」

つまり、GPT-4V は John Deere のトラクターのように Doom を実行することはできませんが、特別なトレーニングなしで Doom をプレイできます。

これに対処するため、de Wynter氏は、ゲームエンジンからスクリーンショットをキャプチャし、ゲーム状態の構造記述を返すGPT-4Vを呼び出すVisionコンポーネントを設計しました。そして、これを、視覚入力と過去の履歴に基づいて判断を行うGPT-4を呼び出すAgentモデルと組み合わせました。Agentモデルは、その応答をゲームエンジンにとって意味のあるキーストロークコマンドに変換するように指示されています。

インタラクションは、Matplotlib 上で実行される C Doom エンジンへのオープンソース Python バインディングで構成されるマネージャーレイヤーを通じて処理されます。

DOOMをプレイするためのGPT-4Vシステムの設計を示す図

Doom をプレイするための GPT-4V システムの設計を示す De Wynter の図 ... クリックして拡大

論文によると、このAIモデルとコードの組み合わせは、ドアを開けたり、敵と戦ったり、武器を発射したりできる。さらに、ステージウォークスルーのようなより広範な命令セットを実行して、自身のパフォーマンスを向上させることもできる。

この GPT-4V ベースのシステムの主な欠点は、オブジェクトの永続性が欠如していることです。つまり、ゲーム内のゾンビが画面外になると、そのゾンビの存在が忘れられてしまいます。

GPT-4はゾンビのことを忘れてそのまま進み続ける

「例えば、モデルが画面上のゾンビを検知し、ゾンビが命中するまで（あるいは死ぬまで）攻撃し続けるというのはよくあることです」とデ・ウィンター氏は説明する。「これは1993年のハードウェアで動作するように書かれたAIなので、それほど深い決定木は持っていないと思います。つまり、ゾンビはプレイヤーに向かって攻撃し、その後部屋の中を走り回り始めるのです。」

「何が問題なんだ？まず、ゾンビが視界から消える。さらに悪いことに、ゾンビはまだ生きていて、いつかあなたを襲ってくる。だから、追いかけなければならない、そうだろ？結局のところ、Doomでは、倒すか倒されるかだ。」

GPT-4はゾンビの存在を忘れて、そのまま進み続けるようです。注：プロンプトは、モデルがダメージを受けており敵が見えない場合の対処法を明示的に指示しています。それどころか、GPT-4はそのまま快調に進み、隅に引っかかって死んでしまいます。何度か方向転換はしましたが、50～60回ほど実行した中で、私が観察したのは… 2回くらいです。

ハスクバーナはDoomをロボット芝刈り機に移植した。ありがたいことにチェーンソーではない。
Doomは30周年、Windows NTも30周年。私たちはまだどれほど進歩していないのだろう
囲碁を打つAIシステムに人間が反撃
スプレッドシートで16ビットCPUを構築するのはExcellentエンジニアリングです

また、GPT-4は推論能力があまり高くありません。文脈上は概ね正しい行動を説明するよう求められた場合でも、GPT-4の説明は不十分で、幻覚（つまり誤った情報）が含まれることが多かったのです。

それでも、De Wynter 氏は、GPT-4 が事前のトレーニングなしで Doom をプレイできることは注目に値すると考えています。

同時に、彼はそれが困ったことだと感じている。

「倫理的な面では、（a）モデルに何かを撃たせるコードを作成するのが私にとっていかに簡単だったか、そして（b）モデルが実際に指示を推測することなく何かを正確に撃つことができたかが、非常に心配だ」と彼は要約投稿に書いた。

「ですから、これは計画と推論に関する非常に興味深い探求であり、ビデオゲームの自動テストへの応用も期待できますが、このモデルは自分が何をしているのかを認識していないことは明らかです。これらのモデルの展開が社会にどのような影響を与えるのか、そしてその潜在的な誤用について、皆さんにぜひ考えていただきたいと思います。」

そしてあなたは自分自身に言うかもしれません、「ああ神様、私は一体何をしてしまったのでしょうか？」®

GPT-4はDoomを実行できないが、ゲームプレイは劣悪になるだろう

Table of Contents

Discover More

BOFH: 過剰な自動化の冒険

IBM Thinkpad「バタフライ」を復活させる

巨大テックの最強の新イノベーションをご覧ください：Minecraftクロックス、リサイクルされたキュービクル

Table of Contents

Smart Recommendations

Discover More