ドイツのコンピューター科学者たちは、ドロイドに「人工的な好奇心」をプログラムすることで、ヒューマノイドロボットをより賢くしたいと考えている。
ボットの探究心は、「Curious Dr MISFA」と呼ばれるアルゴリズムによって獲得されています。このアルゴリズムは、今月arXivに掲載された論文[PDF]で説明されています。このソフトウェアは、教師なし学習と強化学習の手法を用いて、学習プロセスをより自律的にしようとしています。
ロボット工学とAIの融合が深まるにつれ、自律型ロボットの数は増加すると予測されています。機械が特定の作業において人間を凌駕し始めるにつれ、世界中の政府はロボットによる雇用喪失の脅威を懸念し始めています。
しかし、こうした懸念は時期尚早です。自律的にタスクを実行できる器用なロボットを開発するには、多大な時間と労力が必要です。
強化学習(RL)は、エージェントに報酬を与えることで環境を最適にナビゲートする方法を学習させる主要な手法です。DeepMindとOpenAIはどちらもRLの有力企業です。昨年、両社はDeepMind LabとUniverseをオープンソース化しました。これらは、開発者がAIシステムにゲームをプレイさせる訓練を行うための仮想ジムです。エージェントは、高得点を獲得するために、試行錯誤を繰り返しながら、ゲームをうまくプレイする方法を学習する必要があります。
強化学習はシミュレーション環境では効果的ですが、周囲の環境がより複雑な現実世界で行動するロボットに適用するのは困難です。報酬もより希少であり、ランダムな探索だけでは獲得が困難です。
ルール大学ボーフム校神経計算研究所の研究者であるローレンツ・ウィスコット教授とヴァルン・ラジ・コンペラは、Curious Dr MISFAアルゴリズムを用いてこの問題を解決しようとしています。これは「好奇心主導型モジュール型増分的低速特徴分析(Curiosity-Driven Modular Incremental Slow Feature Analysis)」の略で、このアルゴリズムのコードはオンラインで公開されています。「このアルゴリズムは、人工的な好奇心と低速性という2つの基本原理に基づいています」と論文には記されています。前者はロボットに環境を探索する動機を与え、「抽象化の学習が進んだ」場合に報酬を与えます。低速性ルールは、生の感覚データから「ゆっくりと変化する要素を抽出する」ことで抽象化を更新します。
テレビを見すぎる
ほとんどの論文と同様に、専門用語が満載です。でも、もっと分かりやすくするために、ロボットがテレビを見ているところを想像してみてください。ロボットはいつでも、機敏なロボットの指を伸ばし、リモコンのボタンを押してチャンネルを切り替えることができます。一体何を選ぶのでしょうか?そして、何を学習できるのでしょうか?
好奇心旺盛なドクター・ミスファの登場です。このアルゴリズムにより、ロボットは明示的に指示されなくても、どのチャンネルをどのくらいの時間視聴し、何を学習したいかを自分で決めることができます。
「学習する抽象化は、各「チャネル」内のデータに完全に依存する」とコンペラ氏はThe Registerに語った。
抽象化とは、特定の環境における特徴と考えることができます。例えば、ロボットがシマウマに関するドキュメンタリーを見ているとします。抽象化の例としては、シマウマの野原における位置をエンコードすることが挙げられます、とKompella氏は説明しました。
好奇心旺盛なドクターMISFAは3つの部分で機能します:
- 「好奇心駆動型強化学習器」は、最も簡単な抽象概念を最初に学習し、最も難しい抽象概念を最後に学習することで、ロボットがいつチャネルに留まるか、または切り替えるかを決定します。
- 難易度は、各チャネルから抽象化を学習するのにかかる時間によって判断されます。抽象化に関する情報は、「適応型抽象化」を介してアップロードされます。
- 「ゲーティングシステム」は、情報の更新を停止して保存するタイミングを決定し、ロボットが新しい抽象概念を学習できるように準備します。抽象概念がエンコードされると、ロボットは報酬を受け取ります。
ロボットにテレビの見方を教えるというアイデアは一見些細なことのように思えますが、Curious Dr MISFAがより複雑な環境に適用できれば、実用化が期待できます。ロボットは指示されなくても、何に焦点を合わせ、どのような行動を取るべきかを理解できるようになる、というのがそのアイデアです。
「このアルゴリズムは、例えばヒューマノイドロボットに、動いている物体の位置を抽出したり、物体を倒したり、物体をつかんだり拾い上げて置いたりといった抽象的な動作をさせるのに役立つ可能性がある」とコンペラ氏は述べた。
現実世界は複雑すぎる
注目すべきは、このアルゴリズムがまだ実環境のロボットでテストされていないことです。まだ十分に洗練されていないのです。研究者たちは、ヒューマノイドロボット「iCub」の視覚シミュレーションソフトウェアでのみ、このアルゴリズムをテストしました。
iCub シミュレーション ソフトウェアのスクリーンショット (写真提供: Kompella および Wiskott)
3つの物体がテーブルの上に置かれ、それらの位置は絶えず変化しています。iCubはこれを、時間の経過とともに変化する一連のグレースケール画像として認識します。iCubは頭を回転させて物体を観察することで、物体を探索します。
アルゴリズムはまだかなり基本的なものです。iCubロボットは1つ目と3つ目の物体の位置を学習しますが、2つ目の物体の位置は学習できないようです。物体の位置があまりにも不規則で、厳格なルールに従わないためです。
論文によると、抽象化、つまり物体の位置を学習することで、iCub はそれを利用して予測可能な方法で物体と対話できるようになるという。®