AIボットはコンピュータの世界と現実世界をナビゲートするために聴覚を必要とする - エッグヘッド

Table of Contents

AIボットはコンピュータの世界と現実世界をナビゲートするために聴覚を必要とする - エッグヘッド

AI ボットにビデオ ゲームの遊び方を教えようとしているプログラマーは、モデルにサウンドという重要な要素が欠けている可能性があります。

ノイズはビデオゲームにおいて重要な要素です。音楽は特定の雰囲気を作り出すのに役立ちます。例えば、不協和音の連続は、ゾンビゲームにふさわしい不気味なサウンドトラックを作り出します。唸り声やリズミカルな足音などの効果音は、ゾンビの軍勢が近くにいることを知らせ、プレイヤーに注意を促す良い指標となります。

しかし、スーパーマリオやDota 2など、特定のゲームのプレイ方法をエージェントに教える機械学習研究の多くでは、音はしばしば考慮されません。開発者は、ボットに視覚的に情報を提示するためのピクセルのエンコードにのみ焦点を当てているため、ボットは無音の世界に生きています。

しかし、東フィンランド大学(UEF)の研究グループは、コンピューターエージェントに視覚刺激だけでなく音声刺激も与えることで、特定のタスクのパフォーマンスが向上することを発見しました。彼らは、この仮説を検証するため、1990年代の人気FPSゲーム『Doom』をプレイするボットを対象に、一連の簡素な実験を行いました。

Doomは強化学習(RL)のための環境構築が容易です。RLは機械学習の一分野であり、報酬を与えることでボットに特定のタスクの実行方法を学習させる手法です。多くの研究者が既にViZDoomアプリケーションを用いてこのシミュレーションを構築しているためです。研究チームは、音が含まれていると、エージェントやニューラルネットワークが目標に到達する能力が大幅に向上することを発見しました。

実験では、ボットにマップ上の目標領域まで歩くというタスクが与えられます。一見簡単そうに聞こえますが、部屋がたくさんある場合、エージェントが正しい方向へゆっくりと進むには多くの助けが必要です。目標に到達すればポイントが加算され、目的もなく歩き回ればポイントが減点されます。

「視覚情報のみを用いた学習は、学習エージェントにとって必ずしも容易ではない可能性があります。例えば、部屋が多数あり、エージェントとターゲットの間に直接の視線が通っていないシナリオでは、エージェントが視覚情報のみを使用してターゲットに到達することは困難です」と、研究者たちは今週arXivで発表された論文で説明しています。

そこで、科学者たちはボットにサウンドを追加することで、ボットのゲームプレイを支援することにしました。ボットは5つの異なる部屋のいずれかにランダムな方向に出現し、ゲームマップ上のどこかにある赤い柱を探さなければなりません。エージェントが動き回ると、ノイズサンプルが与えられます。ターゲットから近いか遠いかによって、音の高さが変わります。

その騒ぎは何なの?

「私たちの実験では、エージェントが探している物体は、エージェントが物体に近づいたり離れたりするにつれて変化する音を発しています。まるで『冷たい』『熱い』信号を操っているかのようです」と、このプロジェクトの主任研究者であり、UEFの博士課程学生であるヴィレ・ハウタマキ氏は水曜日にThe Register紙に語った。

人間は「冷たい」は対象から遠ざかることを意味し、「熱い」は対象に近づくことを意味することを知っています。しかし今回のケースでは、コンピューターにはこの情報が与えられず、時間をかけて学習する必要がありました。「エージェントに音の意味を明示的に伝えませんでした。そのため、エージェントは自分で理解する必要がありました」とハウタマキ氏は述べています。

研究チームは、視覚的な手がかりのみを与えた場合、エージェントが赤い柱を見つける成功率は約43%であることを発見しました。しかし、音を加えると、成功率は86%に上昇しました。また、ボットはより少ない歩数で目標地点に到達する可能性も高まりました。

「この研究では、単純な強化学習タスクにおける音声の有用性を示すことに主眼を置いていました。これは視覚入力に聴覚入力を追加する最初の[実験]であったため、タスクを可能な限りシンプルに保つよう努めました」とハウタマキ氏は説明した。

チームは、同じ考え方がより複雑な難解なゲームにおける音声ヒントにも応用できるはずだと考えた。「足音や銃声といった特徴的な音声ヒントのあるゲームは、習得が容易になるはずだ」と彼は付け加えた。

人間とロボット…

最高のAIアルゴリズムは実際のロボットでどのように機能するのでしょうか? 残念ながら、うまく機能しないようです。

続きを読む

Dota 2やStarcraftでは、オーディオトラックに攻撃を受けたり、重要な建造物を失ったり、資源に関する情報を得たりといったイベントのハイライトが含まれています。これらは、画面イメージだけでは正確な情報が得られない場合に特に役立ちます。例えば、Starcraft 2のようなリアルタイムストラテジーゲームでは、敵が基地を攻撃した際にナレーターが「基地が攻撃を受けています!」とアナウンスする場面がこれに当たります。

これらの音の意味を理解することで、エージェントは周囲の環境についてより多くの情報を収集し、より適切なナビゲーションを行えるようになるでしょう。ハウタマキ氏は、この技術は自動運転車のようなより実用的なシナリオにも役立つ可能性があると考えています。例えば、クラクションを鳴らすような音は、車が交通渋滞の中にいることを認識するのに役立ち、サイレンの音は、接近してくるパトカーの進路を避けるための合図となるかもしれません。

「本研究では、ビデオゲームにおける強化学習タスクにおけるオーディオの有用性を示すことに主眼を置いていました。しかし将来的には、他のビデオゲームや高忠実度オーディオシミュレーションにおけるオーディオ特性の影響を評価する予定です」とハウタマキ氏は結論付けました。®

Discover More