通常、 Vid Robots に特定のタスクを実行させるにはプログラムする必要があるが、Science 誌に掲載された研究によると、機械学習の助けを借りて、Vid Robots 自身に指示を書かせることができるという。
米国カリフォルニア州に拠点を置くロボット工学スタートアップ企業Vicarious AIのエンジニアたちは、「視覚認知コンピュータ」(VCC)と呼ぶものを開発しました。これは、カメラシステムとロボットグリッパーに接続されたソフトウェアプラットフォームです。VCCは、一連の視覚的な手がかりを与えると、ロボットが従うべき短い指示プログラムを作成し、グリッパーをどのように動かせば簡単なタスクを実行できるかをロボットに教えます。
「人間は一対の画像で伝えられる概念を推測し、それを全く異なる状況に適用するのが得意だ」と論文は述べている。
「人間が推論する概念は、見た目がまったく異なる状況にも容易に適用できるほど十分に高いレベルにあり、その能力は非常に自然であるため、IKEA や LEGO では言語に依存しない組み立て手順書を作成するのに使用されています。」
ただし、期待しすぎないでください。これらのロボットはまだ、組み立て式のテーブルや椅子を組み立てることはできません。しかし、ブロックを前後に動かすといった基本的な作業はできます。
仕組みはこうです。まず、入力画像と出力画像がシステムに与えられます。入力画像は様々な形や大きさの色の物体が混在した画像で、出力画像はそれらの物体が整然と並べられた画像です。例えば、入力画像が多数の赤いブロックで、出力画像がそれらの赤いブロックを円を描くように並べた画像などです。これは、処理前後の画像のようなものだと考えてください。
VCCは、「前」の画像と「後」の画像に基づいて、ロボットが目の前の物体を整理するためにどのようなコマンドを実行する必要があるかを判断します。システムは、教師あり学習を用いて、どの動作がどのコマンドに対応するかを学習するように訓練されます。
Vicariousの共同創業者であるディリープ・ジョージ氏は、The Register紙の取材に対し、「トレーニングには最大10組の画像を使用し、テストにも10組の画像を使用します。ほとんどの概念は、わずか5つ程度の例だけで学習されます」と説明した。
これがどのように動作するかを示した図は次のとおりです。
A: ロボットのコンポーネントを説明するグラフ。B: VCCが使用できるコマンドのリスト。画像クレジット: Vicarious AI
左側は、ロボットを制御する様々な部品の概略図です。視覚階層は、カメラの前にある物体を捉え、形状と色で分類します。注意制御器はどの物体に焦点を合わせるかを決定し、固視制御器はロボットの視線を物体に向けます。その後、ハンド制御器がロボットのアームを操作して物体を動かします。
図の右側にリストされているように、VCC コントローラー用のコマンドは 24 個しかないため、ロボットが動作するためにそれほど多くのトレーニング例は必要ありません。
以下にロボットの動作を埋め込みました。ロボットの前に置かれた物理的な物体は、入力画像と出力画像に表された抽象的な物体と必ずしも同一である必要はありません。
MP4ビデオ
ゼロショット学習
研究者たちは、ロボットがより現実的な環境に適応できるかどうかを検証するため、4行から23行までの指示を含む546種類のタスクまたはコンセプトを構築しました。これには、物体の数やサイズ、背景の色や質感など、様々な要素が含まれています。546種類のコンセプトのうち6つは、2台の異なるロボットでテストされました。
1 つは Rethink Robotics の Baxter モデルで、もう 1 つは Universal Robots の UR5 ロボットアームです。
「それぞれのコンセプトを個別に考えました」とジョージは言います。「そして、それぞれのコンセプトに対応する複数の画像を生成するための小さなPythonプログラムを作成しました。」
上空で楽しそうに鳴く。バークレーではロボットが燃え盛る:自動運転の大学用クーラー・ドロイドが炎上
続きを読む
論文によると、UR5はタスク遂行能力に優れており、テストされた6つのコンセプトのうち90%以上を実行できたのに対し、バクスターは70%だった。グリッパーから物体が滑り落ちるなどのハードウェアの不具合はよくある故障だった。Vicariousが使用したバクスターロボットは旧式で、時間の経過とともにカメラがぼやけ、動きの精度も低下していた。
「明示的なプログラミングなしにロボットにタスクを実行させることは、人工知能とロボット工学の目標の1つです」と研究者らは書いている。
模倣学習のような他の手法も導入されており、エージェントはトレーニングプロセス中にデモンストレーションを模倣することで学習します。しかし、これらのボットはデモの範囲を超えた状況に適応できる可能性が低くなります。
ここでは明示的なデモンストレーションは行われず、研究者たちはこれを「ゼロショット学習」と呼んでいます。エージェントは抽象的な概念を学習してエンコードし、学習したモデルを現実世界のシナリオに適用する必要があります。
かなり魅力的に聞こえますが、まだ初期段階であり、ここで行われる作業は非常に初歩的です。このようなAIロボットが工場で活躍するには、まだしばらく時間がかかるでしょう。Vicarious社は、「限られた環境で、このアイデアのいくつかのバリエーション」をテストする予定だと述べています。