ディープマインドの研究者たちは、ロボットがマトリックスから脱出し、現実世界で自ら学習できるように支援しようとしている。

Table of Contents

ディープマインドの研究者たちは、ロボットがマトリックスから脱出し、現実世界で自ら学習できるように支援しようとしている。

Google DeepMind は、プログレッシブ ニューラル ネットワークを使用して機械に人間レベルの運動制御を教え、ロボットが現実世界で新しいスキルを即座に学習できるようにしようとしています。

アイデアは、実験室でシミュレーションによって構築されたAIモデルに頼るのではなく、自らの環境から常に学習し、自らを改善できるドロイドを構築することです。実験室からアップロードされた更新されたモデルの共通コピーを持つのではなく、各マシンが個別に学習するマシンがあったら素晴らしいと思いませんか?

DeepMind の「Sim-to-Real Robot Learning from Pixels with Progressive Nets」という論文が先週 arXiv に掲載されましたが、Natureに掲載された別の DeepMind の論文の影に隠れてしまいました。

「プログレッシブニューラルネットワークは、多くのタスクの継続的な学習に使用できるフレームワークを提供し、シミュレーションとロボットを隔てる境界を越えても転移学習を容易にする」と論文の専門家は述べている。

簡単に言えば、ロンドンを拠点とする DeepMind は、ある AI モデルから別の AI モデルに知識を転送する方法を発見しました。これにより、ソフトウェアは、夢の世界でのみトレーニングされるのではなく、シミュレーションでタスクを実行する方法を効率的に学習し、現実世界で学習を継続できるようになります。

したがって、このソフトウェアは、これまでシミュレートされていなかった状況に対処する方法を学習したり、一見無関係な問題を解決するために特定のスキルを使用する方法を学習したりすることができます。

DeepMind は、ディープ強化学習と呼ばれるものに非常に熱心です。これは、システムをさまざまな方法を試してトレーニングし、改善するたびに報酬を得るという、現在 AI で流行している手法です。

1秒間に何千回も試行できるような、動きの速いシミュレーションの世界では問題ありませんが、ロボットを物理的に動かし、現実世界での失敗から学習するとなると、そうはいきません。モーターが動くには時間がかかります。より効率的な学習方法、そしてノウハウをシミュレーションから現実世界へと移す何らかの方法が必要です。

そこでDeepMindは、シミュレーション学習による深層強化学習モデルから得られた知識を、プログレッシブニューラルネットワークに転送しようと試みています。このプログレッシブニューラルネットワークは、実世界のロボットアームであるJacoを操作しています。

Jacoの仕事は、目の前の物体を探し、それをうまく拾う方法を学習することです。カメラからの視覚情報を取得し、目の前の物体を掴むための適切な判断を下そうとします。ロボットの成績が良ければ良いほど、より多くのポイントが与えられ、できるだけ多くのポイントを獲得することが目的です。これが、AIモデルが報酬を通して学習する方法です。少し皮肉な言い方をすれば、これはおやつを使った力ずくの訓練のようなものです。DeepMindがビデオゲームをプレイするAIを作ったのも、まさにこの方法でした。

この入力画像データをJacoの出力動作(DeepMindが「ピクセル・トゥ・アクション」と呼ぶもの)に変換するのは容易ではありません。多くの試行とトレーニング時間、そして繰り返しの動作に耐えられる堅牢なロボットが必要です。

深層強化学習に用いられるアルゴリズムは、優れた動作制御を実証するのに効果的ですが、これまでは主にシミュレーションでのみ利用されてきました。これからは、シミュレーションで得られた知識を現実世界に応用するという困難な課題に直面しています。

現実世界のAIモデルにシミュレーション学習モデルの知識を組み込むため、研究者たちはシミュレーション学習済みのニューラルネットワークの列を、現実世界のロボット学習済みのAIの列に接続した。これにより、実験室で学習した脳が現実世界の脳に接合され、物理環境で新しいスキルを学習する機会を十分に得られるようになり、AIはすぐに行動を開始できる。

シミュレーション学習データとロボット学習データにプログレッシブネットワークがどのように使用されるか(DeepMindによるイラスト)

2つのAIモデルを接続した後の物理トレーニングフェーズでは、ロボットアームが目標地点に10cm(4インチ)以内に到達できた場合、例えばポイントが付与されます。50ステップで30ポイントを獲得すると、エージェントは優秀とみなされます。

ジャコを訓練するには、40cm×30cm(16インチ×12インチ)の領域内にターゲットをランダムに配置し、約60,000歩を試みます。

言うほど簡単ではありません。「漸進的な第2列は34ポイントを獲得しましたが、シミュレーションで訓練された列から始めてロボットで訓練を続ける微調整実験は、漸進的なネットワークと同じスコアには達しませんでした」と論文は認めています。

左:ジャコの実画像。右:ジャコのシミュレーション画像(DeepMind撮影)

プログレッシブ ネットワーク列を追加すると転移学習の効率は上がりますが、「実際の領域では報酬がまばらまたは存在しないため、強化学習は決して成功しない」ため、リスクがあります。

研究者によると、ロボットをシミュレーション基準まで訓練するには、24時間以上の継続的なトレーニングで約53日かかるという。しかも、これはロボットアーム1本に物体を掴むよう訓練しただけの話だ。設計上、システムは拡張するにつれて複雑さが2乗的に増し、プロセッサへの負荷も高くなるため、現時点では実用化には程遠い。

DeepMindの親会社であるAlphabetは、ロボットの知能を高めるための新たな方法の発見に熱心に取り組んでいます。Google Brain、DeepMind、そしてより秘密主義的なGoogle Xなど、様々な研究部門がロボット工学プロジェクトで協力しています。

この研究から判断すると、殺人ロボットが作られるまでにはまだまだ長い道のりがあるようです。®

Discover More