Googleはロボットに人間に奉仕することを教える ― 鍵となるのは大規模言語モデル

Table of Contents

Googleはロボットに人間に奉仕することを教える ― 鍵となるのは大規模言語モデル

ウェブ大手のグーグルの最新調査によると、同社の最大の AI 言語モデルは、ロボットが人間の命令をより柔軟に理解し解釈するのに役立っている。

機械は通常、非常に具体的な要求に対して最もよく反応します。曖昧な要求は機械を混乱させ、ユーザーが想定していなかった結果につながることがあります。人は、望ましい回答を得るために特定の方法で質問するなど、ロボットとのやり取りを固定的に学習します。

しかし、Googleの最新システム「PaLM-SayCan」は、よりスマートになることを約束している。Google Xからスピンアウトしたスタートアップ企業Everyday Robotsが開発したこの物理デバイスは、頭部に目となるカメラを搭載し、長くまっすぐな本体の後ろにはピンセット状のアームが内蔵されている。アームは車輪の上に設置されている。  

以下のビデオでロボットの動作を見ることができます。

YouTubeビデオ

「運動したばかりだから、健康的なスナックを買ってきてくれる?」などとロボットに尋ねると、ロボットはリンゴを取ってくるようになります。「PaLM-SayCanは、言語モデルの知識を活用するための解釈可能で汎用的なアプローチであり、ロボットが高度なテキスト指示に従って物理的に根拠のあるタスクを実行できるようにします」と、Google Brainチームの研究者たちは説明しています。

Googleは今年4月、同社最大規模の言語モデルPaLMを発表しました。PaLMはインターネットから収集したデータで学習しましたが、自由回答形式のテキスト応答を吐き出すのではなく、ロボットが従うべき指示リストを生成するようにシステムが改良されました。

「テーブルにコーラをこぼしてしまいました。どうやって捨てて、掃除を手伝ってくれるの?」と言うと、PaLM は質問を理解し、缶を拾いに行ってゴミ箱に捨ててスポンジを持ってくるといった、ロボットがタスクを完了するための手順のリストを生成します。

手のひらを言う缶1

しかし、PaLMのような大規模言語モデル(LLM)は、ロボットが発する言葉の意味を全く理解しません。そのため、研究者たちは強化学習を用いて別のモデルを訓練し、抽象的な言語を視覚的表現と動作に結び付けました。これにより、ロボットは「コカ・コーラ」という単語と炭酸飲料の缶の画像を関連付けることを学習します。

PaLM-SayCanは、いわゆる「アフォーダンス関数」も学習します。これは、環境内の物体に基づいて特定の動作を完了する可能性をランク付けする手法です。例えば、スポンジを検知したが近くに掃除機がない場合、ロボットは掃除機よりもスポンジを拾う可能性が高くなります。 

「私たちの手法であるSayCanは、物理的に根拠のあるタスクにおいて、LLM内の知識​​を抽出し活用します」と研究チームは研究論文で説明しています。「LLM(Say)は、高レベルの目標達成に役立つ行動を決定するためのタスクグラウンディングを提供し、学習されたアフォーダンス関数(Can)は、計画に基づいて実行可能なものを決定するための世界グラウンディングを提供します。私たちは、世界で何が可能であるかを示すアフォーダンスを提供する言語条件付き価値関数を学習する方法として、強化学習(RL)を用いています。」

  • GoogleのDeepMindは、同社のAIコーディングボットが人間と「競争できる」と述べている
  • アマゾンがルンバメーカーのiRobotを17億ドルで買収
  • Googleは、フォトリアリスティックなDALL-E 2のライバルをリリースすると発表しているが、このAIは偏見が強すぎて使えない
  • Google、パーキンソン病を診断するAI駆動型検査機器の開発を支援

ロボットがタスクから逸脱するのを防ぐため、101種類の指示からのみ行動を選択するように訓練されています。Googleはロボットをキッチンに適応させるように訓練しました。PaLM-SayCanは、スナックや飲み物を取り、簡単な掃除を行うことができます。研究者たちは、LLMは抽象的な指示を与えてロボットがより複雑なタスクを安全に実行するための第一歩だと考えています。

「実世界のロボットタスクを多数実施した実験では、長期的かつ抽象的な自然言語指示を高い成功率で計画・完了できることが実証されました。PaLM-SayCanの解釈可能性により、実世界におけるユーザーとロボットの安全なインタラクションが可能になると考えています」と研究者らは結論付けました。®

Discover More