ビデオ3 人の研究者が、これまで見たことのない新しい物体を拾い上げることができるロボットを訓練しました。
人間にとっては些細な作業ですが、機械にとっては非常に複雑な作業です。人がマグカップを取ろうと手を伸ばすとき、取っ手を持つのが常識です。マグカップが垂直であろうと、逆さまであろうと、あるいは横倒しであろうと、それは問題ではありません。しかし、ロボットにとってははるかに困難です。マグカップの向きの違いに戸惑ったり、背景や照明条件などに気を取られたりすることがあるからです。
マサチューセッツ工科大学(MIT)の研究者たちは、ロボットに物体の特定の位置を掴むよう指示できるシステムを開発しました。実験では、靴、帽子、マグカップの3つの物体を扱い、靴は舌の部分、帽子はつばの部分、マグカップは持ち手の部分で掴むようにロボットを訓練しました。
「物体を操作する多くのアプローチでは、物体が遭遇する可能性のあるさまざまな方向にわたって、物体の特定の部分を識別することはできません」と、arXivに掲載された研究論文の共著者であり、MITの博士課程の学生であるルーカス・マヌエリ氏は述べた。
ここで実際に動作している様子をご覧いただけます。
YouTubeビデオ
高密度オブジェクトネット
ロボットは訓練を受けると、たとえその靴を初めて見たとしても、舌を使ってすべての靴を拾い上げることを学習します。このロボットの心臓部は、Dense Object Nets(DON)と呼ばれる畳み込みニューラルネットワークで構成されたコンピュータービジョンシステムです。
まず、ロボットアームに取り付けられたカメラが回転し、靴の上をホバリングして様々な方向からスキャンします。これにより動画が作成され、そこから静止画を分析できます。目標は、研究者が「高密度視覚記述子」と呼ぶものを作成することです。これは、基本的に1対1マッピングの洒落た名前です。
次に、動画の静止画から取得した画像の個々のピクセルを、物体の全体的な形状、向き、色などの特性を表すベクトルに変換します。これらのベクトルは「記述画像」と呼ばれます。ぼやけて見えるかもしれませんが、実際には物体を構成するすべてのピクセルに関する情報を保持しています。
研究者たちは、カメラ画像から靴のベロに対応するピクセルを選択できるようになりました。これらのカメラ画像と記述子画像を慎重にマッピングすることで、ロボットはハサミを靴のベロやマグカップの取っ手まで移動させ、それらを拾い上げることができるようになります。
突然生き続けるよう懇願する神経質なロボットは、人間によってスイッチを切られる可能性が低い
続きを読む
ロボットが新しい物体を学習し、様々な角度からスキャンして記述子画像を作成するのに約20分かかります。論文によると、「色、質感、変形、そしてある程度の形状にかなりの差があるにもかかわらず、記述子は一貫していることがわかりました。学習要件は比較的控えめで、学習に使用した帽子はわずか6つでしたが、記述子は学習中に一度も観察されなかった青い帽子など、見たことのない帽子にもうまく一般化しました」とのことです。
このロボットは、同じシーン内の複数の物体を分析するように訓練することもできます。訓練中にそれらの帽子を見たことがなくとも、ロボットは様々な帽子の中から特定の帽子を選び出すことができました。
「工場では、ロボットが確実に動作するために複雑な部品供給装置が必要になることがよくあります」と、論文の筆頭著者であり、MITの博士課程学生でもあるピーター・フローレンスは述べています。「しかし、物体の向きを理解できるこのようなシステムであれば、写真を撮るだけで物体を掴み、それに応じて調整することが可能です。」
物体を拾うことは、ロボットに実際に役に立つことをさせるための最初のステップに過ぎません。次の目標は、布を使って机を拭くといった単純な作業を実行するために、ロボットに物体を拾うように訓練することです。®