アマゾンの従業員の皆さん、安心してください。OpenAIで訓練されたロボットハンドはあまり役に立ちません(まあ、今のところは)。

Table of Contents

アマゾンの従業員の皆さん、安心してください。OpenAIで訓練されたロボットハンドはあまり役に立ちません(まあ、今のところは)。

ビデオ人間の手は驚くほど器用です。練習すれば、服を編んだり、配達用の荷物に物を詰め込んだり、ピアノを弾いたりすることができます。

しかし、機械が私たちからこれらの楽しみを奪ってしまうのではないかと心配しているのであれば、安心してください。次の調査結果から判断すると、今のところ私たち人間はロボットよりも早くこれらのスキルを習得できます。

OpenAIの研究者たちは、約100年分のシミュレーション経験を用いて、「Dactyl」と呼ばれるロボットシステムに立方体を回転させ、向きを変える訓練を行いました。Dactylは仮想世界だけに存在するわけではありません。「Shadow Dexterous Hand」も操作できます。これは5本の指と力覚センサーを備えた金属製の肉鉤で、24自由度(人間の27自由度にかなり近い)を備えています。

Dactylが仮想世界と現実世界で実際に動いている様子を捉えた動画をご覧ください。指示された立方体の6面それぞれに特定の文字と色が描かれており、Dactylは指示されたシンボルを見つけるために、立方体をどのように操作すればいいのかを考えなければなりません。

YouTubeビデオ

時間が経つにつれ、ロボットは立方体を親指と小指で掴んだり、他の指先で回転させたりといった、人間がよく使うテクニックを発見し、習得しました。

機械学習の危険性

おそらく最も興味深いのは、Dactylの学習方法でしょう。シミュレーションの世界で訓練されたにもかかわらず、ソフトウェアは学習内容を実際のヒューマノイドのような機械の手に直接転送することができました。これは決して簡単なプロセスではありません。

鍵となったのは、「ドメインランダム化」と呼ばれる手法を使うことでした。これは、ロボット工学におけるシミュレーションと現実のギャップを埋めるために、他の研究者たちが長らく研究してきた手法です。

OpenAIはその差を縮めることに成功したものの、依然として顕著な差が残っていた。チームの論文に掲載された結果によると、ソフトウェアはシミュレーション上の手を制御する際に優れたパフォーマンスを発揮し、実際のハードウェアに接続した場合の成功率中央値が13であるのに対し、50回という結果だった。ここで言う成功とは、「物体が落下するか、80秒以内に目標が達成されないか、50回の回転が達成されるまでの連続した回転成功回数」を意味する。

「ランダム化と調整によって現実とのギャップは縮まるものの、それでもギャップは存在し、実際のシステムでのパフォーマンスはシミュレーションよりも悪い」と論文は述べている。

つまり、シミュレーションでは問題なく動作したのですが、重力の影響、機構の不完全さ、その他現実世界の要因によって、ソフトウェアは不完全な動作をしてしまったのです。実際、テスト中、ロボットハンドは何十回も故障しました。

変数

機械学習ソフトウェアは、表面摩擦、物体のサイズ、照明条件、手のポーズ、テクスチャ、さらには重力の強さといった変数がランダムに変化した様々なシミュレーション環境で学習されました。その目的は、私たちが住む予測不可能な宇宙に適応できるモデルを、少なくとも構築しようとすることでした。

「ランダム化された値は、物理システムに関する不確実性を表現する自然な方法であり、単一のシミュレーション環境への過剰適合を防ぐこともできます」とOpenAIチームは今週月曜日のブログ投稿で説明した。

「ポリシーがシミュレートされた環境全体でタスクを達成できる場合、現実世界でもそれを達成できる可能性が高くなります。」

DactylはRapidというシステムを用いることで、短期間で膨大な時間を蓄積しました。Rapidは、それぞれ16個のCPUコアを持ち、近接ポリシー最適化(PPO)アルゴリズムを実行する384台の「ワーカーマシン」を訓練するシステムです。各ワーカーマシンは、様々なランダムなシナリオにおけるShadow Dexterous Handのシミュレーションを用いて自己学習を行いました。

一般的なトレーニングシステム

このシステムは2つのニューラルネットワークに基づいて構築されています。1つは画像からキューブの位置を追跡することを学習し、もう1つは行動に対する将来の報酬を予測します。目標は、正しい行動をすることで報酬を獲得することです。PPOは強化学習を活用しており、Dactylはタスクを完了するにつれてポイントを獲得することでキューブを操作するための最適な戦略を学習しました。成功時には5ポイントのボーナス、失敗時には20ポイントのペナルティが与えられます。

OpenAI の Dota ビデオゲーム ボットも、ハイパーパラメータを調整した異なるアーキテクチャと環境を使用しているものの、Rapid アルゴリズムと PPO アルゴリズムを使用してトレーニングされました。

「Dota チームが 1v1 ボットで成功を収めたのを見て、実際に彼らに Rapid のやり方を教えてもらいました。すると、わずか 2 週間で、数か月かけて構築した以前の学習インフラストラクチャと同等のレベルに到達しました」と OpenAI の技術スタッフの 1 人である Jonas Schneider 氏はThe Register に語った。

「それでも、まったく同じ最適化コードを使用して、Rapid を、それが開発された Dota の問題とはまったく異なるシミュレーションの問題のブラックボックス最適化プログラムとして扱うことができることに、私たちはかなり驚きました。」

現時点では、Dactylは物体を回転させる以上のことはほとんどできません。立方体以外の物体、例えば八角柱などは回転させることができますが、球体の場合は少し苦労しました。

ビジネススーツを着たロボット

米国政府がAI専門家に機械が支配権を握るのはいつか質問

続きを読む

「現在存在するロボットの大部分は、2つの極端などちらかに該当します。つまり、制約のある設定で非常に複雑なタスクを実行できるロボット(ロケットの部品を溶接する工場のロボットを思い浮かべてください)か、制約のない設定で非常に単純なタスクを実行できるロボット(ルンバを思い浮かべてください)のどちらかです」とシュナイダー氏は述べた。

「だからこそ私たちは、摩擦、転がり、接触などの効果を正確にモデル化する方法がよくわからないため、手の完全に正確なモデルがない環境で非常に複雑なタスクを実行することを特に選択しました。」

研究者たちは、これが最終的には、家庭や職場での雑用を手伝いながら、不安定で変わりやすい現実に対処できるロボットの構築の進歩につながることを期待しています。

「最終的には、現在非常に面倒で高価な新しいタスク用のロボットプログラミングのコストを削減し、工場のようにエンジニアリングチームが手元にいなくてもロボットを慎重にプログラミングできるような複雑なロボットを使用できることを期待しています」とシュナイダー氏は結論付けました。®

Discover More