人工知能ソフトウェアは、手を伸ばして物を掴むといった最も単純な作業をロボットに実行させることができます。
しかし、ロボットには一つ、えーっと、簡単には把握できないことがあります。それは、予期せず動くものへの対応です。そのため、現状では現実世界の多くの作業には不向きです。しかし、床に落ちた衣類や倉庫内の箱など、通常は動かないものを拾うのには適しています。
米国のカーネギーメロン大学で火曜日に始まる「ロボティクス:科学とシステム」会議で発表される論文によると、これは習得が驚くほど難しい技術だという。
「非常に管理された環境下で、非常に特殊なアイテムを拾うようにロボットをプログラムすることができた」とオーストラリアのクイーンズランド工科大学の博士研究員、ユルゲン・ライトナー氏は月曜日に語った。
しかし、現在のロボット把持システムの主な欠点の1つは、物体が移動された場合などの変化に迅速に適応できないことです。
ライトナー氏と彼の同僚は、ロボットが明示的に訓練されていない物体を掴むのを支援するニューラルネットワークを構築しました。ロボットが現実世界で有用であるためには、新しい物体に遭遇し、様々な環境に適応する必要があります。
「世界は予測不可能だ。物事は変化し、動き、混乱する。そして多くの場合、それは予告なく起こる。だからロボットが効果的に機能するには、非常に非構造化された環境に適応し、作業できなければならない」とライトナー氏は付け加えた。
「例えば、私たちのチームが2017年に優勝したAmazon Picking Challengeでは、ロボットCartManが物体の入った箱の中を見て、物体を掴むのに最適な場所を判断し、何も考えずに箱の中に入り、物体を拾おうとしました。」
このニューラルネットワーク、生成的把持畳み込みニューラルネットワーク(GG-CNN)は、ロボット工学で用いられる従来の畳み込みニューラルネットワーク(CNN)の多くとは異なります。物体を掴むには、ロボットの指をどのように配置すれば良いかを決定する必要があります。GG-CNNは、物体の輪郭を囲む従来のスライディングウィンドウやバウンディングボックスではなく、入力画像をピクセル単位で分析することでこれを実現します。
ロボコップ:群衆の中にいる凶悪犯を特定するためのドローンを科学者が開発
続きを読む
GG-CNN モデルは、ほとんどの CNN よりも必要なパラメータが少ないため、実行がはるかに高速で、3.6GHz Intel Core i7-7700 CPU と Nvidia GeForce GTX 1070 グラフィック カードを搭載したデスクトップ コンピューターで実行するのに約 19 ミリ秒かかります。
「生成的把持畳み込みニューラルネットワークのアプローチは、2本指の把持の質と姿勢をピクセルごとに予測することで機能します」と、論文の第一著者でクイーンズランド大学の博士研究員であるダグラス・モリソン氏は述べた。
「深度画像を使用して1回のパスで目の前にあるものをマッピングすることにより、ロボットは決定を下す前に多くの異なる掴み方をサンプリングする必要がなく、長い計算時間を回避できます。」
ロボットは、ロボットが掴むべき点と掴むべきでない点を示すプラス点とマイナス点がラベル付けされた実物体の885枚の画像を調べることで学習しました。Kinova Mico 6DOFロボットにKinova KG-2 2本指グリッパーを装着し、奇妙な形状の3Dプリント物体8点を83%の把持率で、ドライバー、テディベア、マグカップなど12種類の家庭用品を88%の把持率で掴みました。
「これは産業界にとってメリットがあります。オンラインショッピングや仕分けのための倉庫から果物の収穫まで、あらゆる場面で活用できます。また、よりインテリジェントなロボットが開発されれば、掃除機をかけたり床を拭いたりするだけでなく、物を拾い上げて片付けたりもできるようになるため、家庭にも応用できる可能性があります」とライトナー氏は結論付けました。®