OpenAIが機械学習を使って1990年代の名作ソニック・ザ・ヘッジホッグを倒すチャレンジに挑戦

Table of Contents

OpenAIが機械学習を使って1990年代の名作ソニック・ザ・ヘッジホッグを倒すチャレンジに挑戦

OpenAI は、AI における転移学習のテストベッドとして、古典的なソニック・ザ・ヘッジホッグ ゲームを使用した新しいコンテストを開始しました。

強化学習は、機械学習の一分野であり、エージェントに固定された環境における特定の行動を学習させることを目的としています。エージェントは環境を探索し、様々な行動を試すようにプログラムされており、良い行動をとるたびに報酬が与えられます。スコアを最大化するようにプログラムされているため、時間の経過とともに特定のタスクを完了する方法を学習し、改善していくと考えられています。

これはDoom、パックマン、Q*bertといった昔ながらのビデオゲームでよく取り上げられてきました。そして今、ソニック・ザ・ヘッジホッグが復活する時が来ました。

OpenAI は、ソニック・ザ・ヘッジホッグ、ソニック・ザ・ヘッジホッグ 2、ソニック 3 & ナックルズのゲームの 58 の特定のシナリオまたは「セーブ ステート」で構成された新しいプラットフォーム、Gym Retro をリリースしました。

これらのミニチャレンジは、競技者の強化学習アルゴリズムをこれまでにないレベルでテストすることを目的としています。トレーニングプロセスでは、任意の環境やデータセットを使用できますが、テストフェーズでは、エージェントは各レベルで18時間しか使用できません。

人間にとって、ソニック・ザ・ヘッジホッグのどのレベルでも、18 時間を一気に費やすのは明らかに長すぎますが、機械にとっては実際にはかなり難しいため、追加の時間が必要になります。

AIロボットを作りたい?まだロボットを持っていない?ドロイド用のホロデッキを試してみませんか?

続きを読む

転移学習はニューラルネットワークにとって非常に難しいと、このプロジェクトでOpenAIに助言したニューヨーク大学でAIとゲームを研究するジュリアン・トゲリウス准教授はThe Registerに説明した。

「ゲームをプレイすると、私たちは物事を非常に早く理解します。しかし、ニューラルネットワークは非常に脆弱な表現を学習し、特定のシナリオに過剰適合してしまいます。そのため、新しいシナリオへの一般化はあまり得意ではありません。」

研究者たちはこれまで、Atari 2600ゲームをベースにしたプラットフォームであるアーケード学習環境(ALE)を用いて、学習の進捗状況をベンチマークしてきました。Togelius氏は、この新しいGym Retro環境は「大きな前進」だと述べています。

ALEは非常に限定的な環境です。ゲームをプレイするために使用されるニューラルネットワークのパラメータの数は、メモリに保存されており、ゲーム自体よりもかなり多くなっています。つまり、ニューラルネットワークは基本的にゲームのプレイ方法しか記憶できないということです。

エージェント

Gym Retro は少し難易度が高いですが、まだ道のりは長いとTogelius氏は言います。エージェントは課題に直面していますが、学習しているのはあくまでゲームに実際に適用可能な行動だけです。また、ソニック・ザ・ヘッジホッグシリーズは最初からレベル数が少なく、トレーニングレベルとテストレベルはほぼ同じです。

OpenAIの研究者であるジョン・シュルマン氏は、AIはまだ異なるゲーム間で移行できないことに同意した。

「強化学習のための転移学習はまだ初期段階です。異なるゲーム間の転移学習はまだ少し難しすぎますが、異なるレベル間の転移学習は現状の技術水準からするとほぼ適切です。スーパーマリオと同様に、ソニックにも多様なビジュアルと物理法則を含む多くのレベルが含まれています」と彼はEl Reg誌に語った。

コンテストは4月5日から6月5日まで開催されます。Open AIの研究者たちは、ベンチマークをより詳細に説明するために、様々なアルゴリズムで達成したベースライン結果をいくつか公開しました。

「何が最も効果的かを見極めたいと思っています。手作りのボットからモデルベースの強化学習、デモンストレーションからの学習、DQNのようなアルゴリズムまで、あらゆるものを見たいと思っています」とシュルマン氏は述べた。

コンテストへの登録はこちらから。®

Discover More