百度はAI「赤ちゃん」ボットに迷路を案内して英語を教える

Table of Contents

百度はAI「赤ちゃん」ボットに迷路を案内して英語を教える

中国のテクノロジー大手、百度のAI研究者たちは、2次元の迷路のような世界で仮想ボットに英語を教えようと試みた。

この研究は「家族ロボット」というアイデアへの道を開くもので、飼い主の命令を理解できるスマートなロボット執事だと研究者らは主張している。研究者らはarXivで公開されている論文の中で、この通常の言語を扱う能力は人間レベルの知能を持つ機械を創造するために不可欠であると主張している。

周囲のシミュレートされた世界を描写することでボットに言語を教えることにより、ソフトウェアはタスクからタスクへと応用可能なノウハウと知識を獲得します。これは正しく行うのが驚くほど難しく、汎用的な知能の兆候です。研究者たちは、この手法を、歩き方や話し方を学んでいる赤ちゃんに親が言語を使って指導するのと似ているとしています。

XWORLDと呼ばれるシミュレートされた2Dの世界では、赤ちゃんがエージェントとなり、両親が教師となります。赤ちゃんエージェントは環境を生のピクセル画像の連続として認識し、教師から英語の指示を受け取ります。

「環境を探索することで、エージェントは環境の視覚的表現、言語の構文と意味、そして環境内でのナビゲーション方法を同時に学習する」と論文には記されている。

各ボットは、上、下、左、右への移動の4つのアクションを実行できます。セッション開始時に、教師は「リンゴまで移動してください」などの自然言語コマンドを発行します。タイマーがスタートし、エージェントは一定時間内にリンゴまで移動する必要があります。移動に失敗すると、正の報酬が与えられます。

一見簡単そうに見えますが、実はそうではありません。バナナ、オレンジ、ブドウといった他の果物もボットを混乱させるために加えられているのです。成功するには、ボットはそれぞれの果物の種類の単語を学習する必要があり、何千回ものトレーニングセッションを通して試行錯誤を繰り返します。

仮想エージェントは、コマンドで指定された単語から実行する必要がある正しいアクションを見つけます。

特定のセッションで与えられたコマンドの例(画像提供:Yu et al)

これは、タスクを 4 つの部分に分割することによって行われます。

  • コマンドを処理して回答を生成する言語モジュール。
  • コマンド内の関連する単語を抽出する認識モジュール。
  • エージェントがローカル環境を認識できるようにする視覚認識モジュール。
  • 移動を実行するアクション モジュール。

例えば、エージェントがバナナの南、リンゴの東にいるとします。「バナナはどこですか?」と尋ねた場合、正しい答えは「北」です。エージェントは、言語モジュールを用いてコマンドを理解し、視覚知覚モジュールを用いて自身とバナナの空間関係を認識し、認識モジュールを用いてリンゴとバナナの違いを認識し、そして行動モジュールを用いて質問に答える必要があります。

ボットはナビゲーションと認識タスクにおいて平均90%の精度を達成していますが、XWORLDはシンプルな環境です。教師の語彙はわずか104語で、9つの場所、4つの色、40の異なる物体クラスを含みます。教師は合計16種類の文章を話すことができ、4つのナビゲーションコマンドと12種類の認識クラスがあります。教師が発する文章の長さは2語から12語までで、ボットは単語のみで返答できます。

論文の共著者で百度の研究者であるハオナン・ユー氏はThe Registerに対し、完全に機能するロボット召使いを作るには他にも課題があると語った。

2次元の世界と比較して、3次元の世界ではより洗練された視覚認識モジュールが必要です。同じ物体でも角度によって見え方が全く異なる場合があるからです。あらゆる状況において物体を確実に検出することは、対応する言語概念と結び付けるために不可欠です。

また、3Dではエージェントの視野は部分的であり、常に世界全体を観察できるわけではありません。そのため、エージェントが移動するために過去の視覚情報を保存するための何らかの記憶機構が必要になります。」

しかし百度は、視覚と言語の要素を開発して、将来家族向けロボットを開発できると期待している。

「将来、特定のタスクを実行するための事前プログラムが組み込まれていない知能ロボットが工場から家庭に出荷される様子を想像してみてください。プログラミングを知らない一般の人々にとって、自然言語は家庭向けにロボットを訓練する最も自然な方法です。」

「家庭によってロボットに対する特別なニーズは異なります。例えば、コーヒーを淹れてくれるロボットが必要な人もいるでしょう。そこで、『砂糖をスプーン1杯、ミルクをスプーン2杯入れたコーヒーを作ってもらえますか?』といった指示を与えてロボットを訓練することができます。各家庭が自然言語を用いて独自の方法でロボットを訓練するため、最終的にはそれぞれ独自のロボットが完成するのです」とユー氏は結論付けました。®

Discover More