AI研究をリードする大手研究室は皆、自社の洗練されたゲームプレイ用ソフトウェアボットがいつか現実世界に応用できると確信させようとしています。囲碁、ポーカー、Dota 2のスキルは、新薬の設計、ロボットの制御、コンピューターへの交渉術の学習など、あらゆるアルゴリズムに応用できるでしょう。
スタートアップ企業Kindred.AIは、特にロボット工学と機械学習ソフトウェアに関して、これらの主張の一部を検証することにしました。「最先端の強化学習アルゴリズムが実際のロボットアプリケーションでどの程度使えるのかを知りたかったのです」と、KindredのAI責任者であるルパム・マフムード氏はThe Registerに語りました。
強化学習(RL)は、エージェントが設定された目標に近づくたびに報酬を与えることで、特定のタスクの実行方法をエージェントに学習させる、人気のAI手法です。例えば、シューティングゲーム「Doom」では、エージェントは銃や弾丸を拾うとポイントを獲得しますが、撃たれるとポイントを失います。時間の経過とともに、エージェントはDoomのプレイスキルを向上し、敵を素早く撃ち、装備品を集めることに集中することを学習します。
研究者チームは、様々なタスクを指示された様々な実ロボットを用いて、4つの強化学習アルゴリズムを評価しました。テスト対象は、DeepMindが開発したDeep Deterministic Policy Gradient(DDPG)アルゴリズムとsoft-Q学習、OpenAIのProximal Policy Optimization(PPO)、そしてカリフォルニア大学バークレー校の研究者らが開発したTrust Region Policy Optimization(TRPO)です。
彼らは、市販のメカニカルアームであるUR5ロボット、特定の動作を制御するDynamixel MX-64AT、そして掃除機をかけるための円盤状の機械であるCreate 2を使用しました。タスクには、物体への到達と追跡、充電ステーションへのドッキングなどが含まれていました。
各ロボットを特定のタスクにおいて異なるアルゴリズムでテストするには、450回以上の独立した実験が必要で、950時間以上かかりました。これは大変な作業であり、すべての結果とコードはarXivとGitHubで公開されています。
細かい詳細は省きますが、DDPGのパフォーマンスは最も低く、TRPOが最も優れていました。成功の鍵は、アルゴリズムの堅牢性にあります。言い換えれば、各アルゴリズムがハイパーパラメータ(AIが対処しなければならない外部条件)の変化に対してどれほど敏感であるかということです。ディープラーニングシステムは、開発者が設定した特定の条件下では良好に機能します。これらのハイパーパラメータは、データからパターンを学習できるように慎重に調整されています。
厄介なハイパーパラメータについて
「研究室ではハイパーパラメータの感度はそれほど重要ではありません。そこでは、たくさんの値を試して、最適なものを選ぶだけです。しかし、社会で学習するロボットについて話している場合、使用するハイパーパラメータの選択に慣れている必要があります」とマフムード氏は語った。
「一例として、機械学習モデルをリアルタイムで実行し、自動運転車を操作して新しい体験に適応させる場合、ハイパーパラメータの選択によって壊滅的な障害を引き起こさないアルゴリズムが必要になります。」
例えば、速度標識の反射光によって視界が遮られ、自動運転車が減速の必要性を認識できない可能性があります。実際、ハイパーパラメータの選択は非常に重要であり、多くの場合、アルゴリズム自体の選択よりも大きな影響を与えます。
これはまた、ほとんどのタスクにおいて、コントローラを用いてロボットを事前にプログラミングする標準的な方法が、現在の強化学習技術を使用するよりも依然として効果的であることを意味します。しかし、だからといって強化学習に全く意味がないわけではありません。
モバイル、車輪付き、クラウド... AI をどのように活用したいですか?
続きを読む
「当然のことながら、スクリプト化されたプログラムよりも優れたパフォーマンスを発揮するのは、スクリプトやエンジニアリングによる解決策が明確でなかったり、すぐに利用できなかったりするタスクにおいて容易になります。例えば、動的な状況下で任意の物体を掴み、操作することを学習するには、多数の起こり得る状況を想定・考慮するためのスクリプトが必要になります」とマフムード氏はEl Regに語った。
「スクリプトプログラムは数十年にわたる科学、技術、工学の進歩に基づいて開発されましたが、RLアルゴリズムはタスクについて何も知らない白紙の状態からスタートし、数時間で解決策を学習しました。」
強化学習が追いつくにはまだしばらく時間がかかるでしょう。ロボットの訓練にはハードウェア上の課題もあります。アルゴリズムはエージェントやロボットにローカル環境を探索するよう促し、特定のタスクを学習できるようになるまで何度も失敗しながらも段階的に改善していきます。これには膨大な量の計算が必要であり、実験中はロボットが頻繁に過熱したり、故障したり、ケーブルの絡まりといった些細な問題に遭遇したりしました。
しかしマフムード氏は楽観的で、RLが従来のプログラムと同等の性能を発揮するようになった時に転換点が訪れると考えています。「その時点で、RLは人間の専門家によるスクリプト作成よりも費用対効果が高くなるでしょう。これらのアルゴリズムは、ロボット工学におけるいくつかのユースケースにそれほど遠くありません」と彼は説明しました。
実際、現在のアルゴリズムに基づいたアプリケーションが近い将来登場しても不思議ではありません。ここで必要な主要なステップの一つは、シミュレーションシステムと物理システムにおける学習の違い、そして後者における学習の難しさを真摯に理解することです。®
10 月 15 日から 17 日までロンドンで開催される Minds Mastering Machines で、機械学習、人工知能、データ分析、そしてそれらがあなたにとってどのような意味を持つのかを検討します。詳細なプログラムとチケット情報については、Web サイトをご覧ください。