「新しい」「AI」「〜のための」「その」「物理的な」「世界」「加速する」「Facebook」という言葉が怖いなら、この見出しをクリックしてください。

Table of Contents

「新しい」「AI」「〜のための」「その」「物理的な」「世界」「加速する」「Facebook」という言葉が怖いなら、この見出しをクリックしてください。

今週、Facebook は、シミュレーションをナビゲートできるように AI ボットをトレーニングできる強化学習アルゴリズムをオープンソース化しました。各ドロイドにはカメラ、GPS、コンパスのみが搭載されており、地図は搭載されていません。

分散型近接方策最適化(DDPPO)と呼ばれるこのアーキテクチャは、OpenAIが開発したアルゴリズムである近接方策最適化[PDF]を複数のコンピュータに拡張するものです。近接方策最適化は、シミュレーションで複数のボットやワーカーを同時に訓練できるため、システム全体の経験を迅速に蓄積することができます。

DDPPOでは、学習プロセスも複数のコンピュータシステムに分散されており、ニューラルネットワークのすべてのパラメータを保持する中央サーバーは存在しません。そのコードはここにあります。

FacebookのAIの天才たちは、DDPPOを用いて、様々なシミュレーション環境を移動できるエージェントを開発しました。このエージェントをシミュレーション内のランダムな場所に配置して、カメラ、GPS座標、コンパスを使って目標地点に到達するという目標を与えることができます。このAIは99.9%の確率で目的地を見つけ出し、1,000回の評価に1回しか失敗しません。また、最短ルートから平均3%程度、わずかに外れた経路を選択することが多いとのことです。

「DDPPOを用いて、64基のTesla V100 GPUを用いて、エージェントに2.75日間で25億ステップの学習を訓練しました。これは180GPU日分の訓練に相当し、人間の80年間の経験に相当します」と、研究チームは今週発表した論文[PDF]で述べています。この論文は、4月にエチオピアで開催される国際学習表現会議(ICLR)2020で発表される予定です。

具体的には、エージェントは、Facebook の AI Habitat で生成された、壁、部屋、ドア、木の床などを備えた、リアルに見えるさまざまな人々の家のシミュレーション内を移動するようにトレーニングされました。

トレーニングプロセス中、ボットはGPSとコンパスの読み取り、そして一人称視点のカメラビューを用いて、試行錯誤を繰り返しながら目標地点への最適な到達方法を学習しました。各仮想世界をクリアするごとに、エージェントは新たに得た知識を分散モデルに反映させ、自己改善を図りました。

ペッパーロボット

棒や石は骨を折るかもしれないが、ロボットの挑発はあなたを傷つけるだろう ― 少なくともゲームでは

続きを読む

25億歩を歩むことで、ソフトウェアは例えば、障害物につながる可能性のある間違った方向を避ける方法を学習しました。研究者によると、このコードは「実際の屋内環境のレイアウトにおける構造的な規則性を活用する」ことを学習しました。言い換えれば、一般的な建物の設計要素と、どの要素が行き止まりになるかを学習したということです。カメラ入力のない盲目のロボットをテストしたところ、ソフトウェアのパフォーマンスは長距離ルートでは99%でしたが、約50%に低下しました。

DDPPOは現在シミュレーションでのみテストされていますが、Facebookは将来的に物理的なロボットに適用したいと考えています。重要なのは、このソフトウェアが現実世界、つまり地図が必ずしも正確でなかったり、入手できなかったりする世界でも対応できるはずだということです。

「地図に関して残念なことに、作成された瞬間に時代遅れになってしまう」と、論文の第一著者であり、フェイスブックのインターンであり、ジョージア工科大学の学生でもあるエリック・ワイマンス氏と、第二著者でフェイスブックの技術者であるアビシェク・カディアン氏は指摘した。

「現実世界の環境のほとんどは変化します。建物や構造物は変化し、物体は移動し、人やペットも常に変化しています。DDPPOで訓練されたエージェントは、地図なしで移動することを学習することで、現実世界向けの新たなAIアプリケーションの開発を加速させるでしょう。」

そうすれば、私たちがどこにいても、ランチにピザをデスクまで直接届けてくれるロボットがついに登場したり、あるいはシリコンバレーが世界をもっと快適な場所にすると考えているものが登場したりするかもしれません。®

Discover More