ビデオDeepMind は、YouTube ビデオを視聴させることで、人工知能プログラムに古典的な Atari コンピュータ ゲームをプレイすることを教えました。
通常、この種の研究では強化学習と呼ばれる手法を用います。これは機械学習においてよく使われる手法で、ボットに小さな報酬をたくさん与えて誘惑することで、コンピューターゲームのプレイなど特定のタスクを実行するようにボットを訓練します。
これを実現するために、開発者はゲーム環境の状態を把握し、獲得すべき報酬を特定し、それを獲得するためのアルゴリズムとモデルを構築する必要があります。ボットはこれらの報酬を探し出すことで、ゲームの世界を一歩一歩着実に進んでいくはずです。AIがレベルをクリアし続けるために、報酬は次々と提供されるべきです。
しかし、DeepMindの精鋭たちが開発し、今週発表された論文で発表された新たな手法は、明示的な環境報酬なしに、Montezuma's Revenge、Pitfall、Private EyeといったAtariの名作タイトルをプレイする方法をコードに学習させる。その代わりに、エージェントは人間のプレイセッションのYouTube映像を分析することで、人間のゲームへの取り組み方を模倣するよう求められる。
DeepMind:ネズミのようなAIを見てください。「ほら、見て。迷路を解いたりするんですよ」
続きを読む
1984年の『モンテスマズ・リベンジ』のような探索ゲームは、AIにとって特に解読が困難です。なぜなら、どこへ行けばいいのか、どのアイテムをどの順番で必要とするのか、そしてそれらをどこで使うべきなのかが明確ではないからです。そのため、ゲームのプレイ方法を明確に示さなければ報酬を定義することが難しく、結果として演習の目的が損なわれてしまいます。
例えば、Montezuma's Revengeでは、エージェントはカウボーイハットをかぶったキャラクター「パナマ・ジョー」を、一連の部屋やシナリオを通り抜け、寺院の宝物庫へと導く必要があります。宝物庫には、すべてのアイテムが隠されています。最初の重要なアイテムである金の鍵をポケットに入れるには約100ステップかかり、これは100× 18通りのアクションシーケンスに相当します。これは、一般的な強化学習アルゴリズムでは対応しきれないほど膨大です。ニューラルネットワークが単一の特定の報酬を得るためだけに、連続したステップを内部化するには、あまりにも多くのステップが必要だからです。
したがって、この種の報酬はスパース(疎)であると説明されます。報酬を得るための各ステップは、プレイヤーを目標に導くにもかかわらず、達成される成果がほとんどなく、ボットを導くための即時の報酬もほとんどありません。ミズ・パックマンのようなゲームはその逆で、ソフトウェアエージェントにほぼ即時のフィードバックを提供します。ミズ・パックマンがペレットやフルーツを飲み干すとポイントが加算され、ゴーストに捕まると罰せられます。モンテスマズ・リベンジなどのパズルアドベンチャーのようなスパースゲームでは、エージェントは強化学習で通常得られるよりもはるかに多くの忍耐力を必要とします。
模倣学習
報酬の希薄化問題を回避する一つの方法は、デモンストレーションから直接学習することです。結局のところ、私たち人間もデモンストレーションを通して物事を学びます。「人々は編み物からダンス、ゲームまで、多くのタスクをオンライン動画の視聴によって学習しています」と、DeepMindチームは論文の要約に記しています。
彼らは、タイミング、視覚的特徴、感覚様式、そして身体的な違いといった大きなギャップがあるにもかかわらず、オンラインデモから得た知識を目の前のタスクに応用する驚くべき能力を示しています。豊富なラベルなしデータを備えたこの高度な設定は、AIの研究課題を刺激し、三人称模倣、自己教師学習、強化学習(RL)、そして関連分野における大きな進歩につながる可能性があります。
研究者たちは、コードを学習させるために、Montezuma's Revenge、Pitfall、Private Eyeの3つのタイトルそれぞれについて、YouTubeのゲームプレイ動画を3本ずつ選びました。各ゲームには独自のエージェントが用意されており、エージェントはタイトルのアクションと特徴を理解可能な形式にマッピングする必要がありました。研究チームは、時間的距離分類(TDC)とクロスモーダル時間的距離分類(CDC)という2つの手法を用いました。
TDCはエージェントに、2つのフレーム間の時間的距離、つまり差異を予測するように学習させました。エージェントは、ゲーム内の2つの動画フレーム間でどの視覚的特徴が変化したか、そしてその間にどのようなアクションが行われたかを認識することを学習しました。トレーニングデータを生成するために、ゲームのYouTube動画からランダムにフレームのペアが選択されました。
CDCは音を追跡する点で優れています。ゲーム内の音はジャンプやアイテム収集などのアクションと相関関係にあるため、CDCはこれらの音を重要なゲームイベントにマッピングしました。これらの視覚的および聴覚的特徴をニューラルネットワークを用いて抽出し、組み込むことで、エージェントは人間のゲームプレイを模倣できるようになります。
こちらは『モンテスマの復讐』で活躍するエージェントの映像です。『ピットフォール』と『プライベート・アイ』をプレイするように訓練されたコンピュータソフトウェアの映像もこちらでご覧いただけます。
YouTubeビデオ
DeepMindのコードは、依然として大量の小さな報酬(いわゆるチェックポイント)に依存しています。ゲームのプレイ中、エージェントのセッションにおける16番目のビデオフレームすべてがスナップショットとして撮影され、同じゲームをプレイしている人間の4番目のビデオのフレームと比較されます。エージェントのゲームフレームが人間のビデオのフレームに近い、または一致する場合、エージェントは報酬を受け取ります。時間の経過とともに、エージェントはチェックポイントフレームと一致するように同様の一連の動きを実行することで、ビデオでのゲームのプレイ方法を模倣します。
これは巧妙なトリックで、エージェントは3つのゲームすべてでかなり良いスコアを達成しました。平均的な人間プレイヤーや、Rainbow、ApeX、DQfDといった他のRLアルゴリズムを上回っています。重要なのは、エージェントがゲームを独力でマスターするのではなく、人間の行動を模倣することを学習している点です。私たちが学校で優秀な先生に頼っていたように、エージェントは優秀な人間のトレーナーに依存しているようです。
AIエージェントがAtariゲームをプレイし、人間の平均スコアや他の強化学習アルゴリズムと比較した結果の表。画像提供:Aytar他
素晴らしい成果ではありますが、実用性は未知数です。Atariゲーム以外にも活用できるのでしょうか?この研究は再現がかなり難しいでしょう。研究者たちはどのようなハードウェアを使用しましたか?エージェントのトレーニングにはどれくらいの時間がかかりましたか?論文には詳細が書かれていませんが、DeepMindに問い合わせたところ、コメントは得られませんでした。®