OpenAIは本日、インテリジェントソフトウェアのトレーニングシステムであるGymをアップデートし、開発者が物理的なロボットにペンを持ったり、物体を拾って移動させたりする方法を教えることができるようになった。
Gymは2016年にリリースされ、強化学習(RL)を用いて、Atariゲームのプレイやバランスポールなどの新しい技をプログラムに学習させるためのツールキットです。OpenAIは現在、仮想世界であっても、物理的なロボットが周囲の物体とどのように移動し、相互作用するかを学習できるように設計された、一連のシミュレーション環境を追加しました。
例えば、シミュレーション環境は、ロボットの指に楽器を演奏したり、テーブルから物を拾い上げたりすることを教えるのに利用できます。これは、比較的動きの遅いロボットを実際に組み立てたりすることなく、あるいはハードウェアを手に取る前に、何千もの演習を通して知能ロボットを迅速に訓練したい人にとって便利です。
このスタートレック風のホロデッキアプローチは、物理的な環境でロボットをトレーニングするよりもはるかに高速かつ簡単です。もちろん、結果として得られるモデルは、準備ができたら、実際の機械を制御するために使用できます。
OpenAIの研究者であるピーター・ウェリンダー氏はThe Registerに対し、「実際のジムにはトレッドミル、ベンチプレス、エアロバイクなど、さまざまな『環境』があるように、OpenAI Gymには『おもちゃのフィギュアを歩かせる』や『車を坂道で走らせる』といったAIエージェント向けの環境があります」と語った。
具体的には、最新の環境では、物を動かす Fetch ロボット アームと、ロボットの指で物をつかんで操作する ShadowHand をシミュレートします。
新しいロボット環境はすべて、スパース報酬を用いて学習されます。通常、強化学習モデルは目標に近づくにつれて少しずつ報酬が与えられます。この報酬はソフトウェアを刺激し、正しい行動を徐々に学習していることを示します。一方、スパース報酬は、コードが目標を達成した場合にのみ与えられます。
なぜロボット?AI倫理を理解する
続きを読む
これは、コンピューターにサンドイッチを作るように指示する場合と、パンを 2 枚取ったらポイントを付与し、次にハムを取ったらさらにポイントを付与し、さらにハムを重ねたらさらにポイントを付与し、最後にサンドイッチが完成したらポイントを付与する場合との違いです。
「パックを押す腕を例に考えてみましょう」とウェリンダー氏は述べた。「腕はパックを横から叩くなど、ランダムに何らかの動作をしようとします。従来の強化学習では、パックがゴールにどれだけ近づいたかに基づいて、オラクルがエージェントに報酬を与えます。パックがゴールに近づくほど、報酬は大きくなります。つまり、オラクルはエージェントに『だんだん温まってきたね』と伝えていると言えるのです。」
「スパース報酬は、本質的にこのパラダイムを極限まで押し広げます。オラクルは目標を達成した場合にのみ報酬を与えます。オラクルはもはや『暖かくなってきた』とは言いません。『成功しました』か『失敗しました』とだけ言います。中間の手がかりが得られないため、学習がはるかに難しい設定です。」
スパース報酬学習は、現実世界におけるロボットの訓練条件を反映することを目的としています。「例えば、ロボットにグラスにワインを注いでほしい場合、『グラスにはこれくらいの量のワインを注いでください』と指示するだけで済みます」とウェリンダー氏は言います。「『まずボトルを掴んで、持ち上げて、グラスの縁から傾けて、この高さまで注いで、2秒間保持して、止めてください』と指示するのは避けたいのです。」
OpenAI は、スパース報酬を介してロボットをトレーニングするために、タスクを完了しようとした後にパフォーマンスを再生して評価することで学習する RL アルゴリズムである Hindsight Experience Replay (HER) と呼ばれるコードもリリースしました。
環境はオープンソースであるため、他の開発者がカスタマイズして、新しいロボット動作や異なるオブジェクトを導入することができます。OpenAIは、HERアルゴリズムの改良に関心のある開発者向けに、本技術レポートの6ページ目に研究アイデアのリストを公開しています。®