Uber AI Labs の研究者らは、古典的な Atari プラットフォームゲームである Montezuma's Revenge の問題がついに機械学習によって完全に解明されたと主張している。
強化学習(RL)の熱心な研究者たちは、1980年代の古いゲームに長年魅了されてきました。インディ・ジョーンズのようなキャラクター「パナマ・ジョー」が登場し、墓を探索し、敵を撃退しながら隠された宝物を探します。このゲームは、スパース報酬の問題を研究するのに理想的な環境です。
Montezuma's Revengeは、報酬が分散しているため、難易度が高いです。報酬が与えられるまでに、様々なアイテムを集めて部屋をアンロックしたり、敵を倒したりするなど、多くの中間ステップが必要です。そのため、機械が理解するのは容易ではなく、成功への道筋は明確ではありません。
しかし、Uber(そう、あのUberです)の研究者たちは、「Go-Explore」と名付けられた新しいアルゴリズム群によって、それを実現したと考えています。これまでのゲーム攻略の試みとは異なり、このバージョンのPanama Joeは、DeepMindとOpenAIが採用した技術である人間のゲームプレイを模倣することなく、ゲームのプレイ方法を学習します。
Uberのコードは、平均難易度で40万点以上という最高スコアを記録し、3つのレベル全てをクリアしました。ほとんどの研究者は、ボットを使ってゲームの最初のレベルをクリアするだけでも苦労しました。ここで重要なのは、Uberのソフトウェアプレイヤーが新しい技術を用いて3つのレベル全てをクリアできたことです。一方、他の研究者によるこれまでの研究では、最初のレベルより先には進めませんでした。
探索し、すすぎ、繰り返す
Go-Explore は、Uber AI Labs のシニア リサーチ マネージャーであり、ワイオミング大学の准教授でもある Jeff Clune 氏が主導しており、高度な AI 手法ではなく、主に検索アルゴリズムに依存しています。
ゲームは「セル」としてエンコードされた一連の状態として表現されます。研究者たちは、各セルにボットの位置、プレイヤーが現在いる部屋、プレイ中のレベル、そしてこれまでに集めたキーの数を記述します。
Go-Exploreは特定のセルをスタート地点として選択し、そのスタート地点からランダムにゲームを探索します。新しいパスがより高いポイントを獲得した場合、その記憶をアーカイブに保存し、有望なセルに戻って時間の経過とともに改善していきます。
これを繰り返すことで、AIは最終的にレベルをクリアする方法を見つけ出します。また、検索ツールを使用することで、システムは従来使用されてきたニューラルネットワークのような膨大な計算を必要としません。しかし、模倣学習に対処する2つ目の方法は、膨大な計算を必要とします。模倣学習により、エージェントは高得点のパスウェイで実行されたアクションを再現できるため、エージェントはそれらをコピーして、新しいレベルの異なる状態で適用することができます。
これによりエージェントはより堅牢になり、研究者たちはこの研究がロボット工学に役立つ可能性があると考えています。ボットはまずシミュレーションでタスクに対する複数の解決策を探索し、その後、現実世界で最適な解決策を実行できるようになります。
しかし、誰もが納得しているわけではない。Uber AI Labsが提案した方法が機能するのは、「Montezuma's Revenge」が決定論的であるからだ。このゲームは毎回同じレイアウトなので、記憶しやすく、攻略法も簡単に理解できる。しかし、現実世界はコンピューターゲームとは似ても似つかない。
人工知能…それとも高度な模倣?DeepMindがYouTube動画を使ってゲームを制覇するAtariボットを訓練した方法
続きを読む
「多くのシミュレーション環境は、現実世界では成り立たない仮定をしています。例えば、世界は決定論的である、その状態は完全に観察可能である、エージェントの行動はタイムリーである、あるいは、エージェントが行動を計算し学習を更新している間、世界は静止している、といった仮定です」と、ロボット工学のスタートアップ企業であるKindred AIのAI研究リーダー、ルパム・マフムード氏はThe Registerに語った。
「残念ながら、現実世界とシミュレートされた環境との間のこのような違いにより、現在の学習方法では物理的なロボットによる学習が困難になっています。」
ゲームへのAI応用を専門とする准教授のジュリアン・トゲリウス氏は、 El Reg誌に対し、環境の変化があまりないタスクにはより適しているかもしれないと語った。「例えば、ロボットが走り回っている倉庫があるとします。倉庫のレイアウトが同じであれば、この手法はロボットにナビゲーション方法を教えるのに役立ちます。」
「Go-Explore は RL の問題全体を捨て去り、代わりに単純に検索することにし、環境が決定論的であり、シミュレーションがリセット可能であるという事実を活用します。」
両研究者はまた、現時点では完全な査読付き学術論文がまだ発表されていないため、アルゴリズムの具体的な詳細は不明のままであると述べた。®