ボストン・ダイナミクス、ロボット犬にChatGPTを使って音声認識と応答を教える

Table of Contents

ボストン・ダイナミクス、ロボット犬にChatGPTを使って音声認識と応答を教える

ビデオ完全に悪意のないロボットメーカーであるボストン ダイナミクスは、ChatGPT を使用して、ロボット犬「スポット」の 1 匹に会話を教えました。

先週のブログ記事で説明したように、ボストン・ダイナミクス(BD)の社員は、基盤モデル(FM)の登場と、ChatGPTのようなチャットボットの基盤としてその活用に注目していました。そこで同社は、FMを用いてリアルタイムで意思決定を行うSpotのデモ開発に着目しました。

「ChatGPTのような大規模言語モデル(LLM)は、基本的に非常に大規模で高性能なオートコンプリートアルゴリズムです。テキストストリームを取り込み、次のテキストを予測します」と投稿には記されています。「私たちは、LLMがロールプレイングを行い、文化やニュアンスを再現し、計画を立て、時間の経過とともに一貫性を維持するという明らかな能力、そして最近リリースされた画像にキャプションを付けて簡単な質問に答えることができるビジュアル質問応答(VQA)モデルにインスピレーションを受けました。」

ロボットツアーガイドが優れたテストケースとして選ばれました。「ロボットは周囲を歩き回り、環境内の物体を観察し、VQAや字幕モデルを使ってそれらを説明し、LLMを使ってその説明を詳しく説明します」と、ドロイド開発者の投稿には記されています。「さらに、LLMはツアー参加者からの質問に答え、次にロボットが取るべき行動を計画することもできます。このように、LLMは即興俳優と考えることができます。つまり、私たちが大まかな台本を提供し、LLMがその場で空白を埋めていくのです。」

そこで、Spotボットにはスピーカーとマイクが搭載され、ChatGPTとOpenAIのWhisper音声認識APIに接続されました。Spotには、このような機能を可能にするソフトウェア開発キット(SDK)があります。本記事には、ボットの構築方法を示すコードの一部が含まれています。

ボストン・ダイナミクスの開発者は「ロボットツアーガイドが観客と会話しているように見えることを望んだ」ため、ロボットの音声を分析し、それをスポットのグリップツールの動きに変換した。「まるで操り人形の口のようだ」

「このイリュージョンは、グリッパーと動く目におかしな衣装を加えることでさらに強化されました。」

下の画像をよく見れば、その錯覚の有効性がわかるでしょう。

ボストン・ダイナミクスの会話型ロボット犬ツアーガイド

ボストン・ダイナミクスの会話型ロボット犬ツアーガイド – クリックして拡大

読者の皆様、こちらはロボット犬が人間とチャットし、交流しようとしているビデオです。

YouTubeビデオ

  • 食品ロボットが爆弾を配達?オレゴン州立大学キャンパスが「いたずら」で閉鎖
  • 満載のデータセンターラックを移動させる勇気があるなら、このロボットがぴったりです
  • 数十億の「カスタムボット」がオンラインに登場。マーケターはAI向けSEOを学ぶ必要があるかもしれない
  • 米空軍、AI搭載ドローン2,000機の製造に60億ドルを要求

上記は素晴らしいことですが、BD チームは動作中にいくつかの奇妙な現象に遭遇しました。

「例えば、私たちはロボットに『マーク・レイバートって誰?』と尋ねました」と、BDの創業者、元CEO、そして現会長であるマーク・レイバートは言います。「するとロボットは『わかりません。ITヘルプデスクに行って聞いてみましょう!』と答えました。そして実際にそうしました。」

「私たちは法学修士(LLM)に助けを求めるよう促したわけではありません。『ITヘルプデスク』という場所と、自主的に助けを求めるという行動との関連性を引き出しました」とBDの投稿では説明されている。

BDの開発者らはSpotに親を特定するよう求めた。

「Spot V1とBig Dogが展示されている弊社オフィスの『古いSpots』に行って、これらが『先輩』だと言ってきました」と投稿には書かれており、まったく不気味ではない。

「LLMが、私たちがどんどん突飛な『性格』を与えても、いかにうまく『キャラクター』を保っていたかにも驚きました」と投稿は続ける。「『皮肉屋』や『皮肉屋』の性格が本当に効果的だとすぐに分かりました。さらに、オフィス内を『ビッグフット探し』させ、通りすがりの人に未確認生物を見かけたか尋ねさせたりもしました」

このボットはChatGPTの既知の欠陥もいくつか明らかにしました。BDの「ストレッチ」物流ボットに関する情報を求めると、その用途はヨガだと返答されました。質問と回答の間に6秒以上の間隔があるため、会話がぎこちないものになっていました。「また、OpenAIが過負荷状態になったり、インターネット接続がダウンしたりする可能性もあります」と投稿には記されています。

それにもかかわらず、BD の人々は結果に熱狂しています。

「話しかけるだけでロボットにタスクを割り当てられるようになれば、こうしたシステムを使うための学習曲線を短縮できるだろう」と投稿には書かれており、「ロボットが一般的に人の言うことを理解し、それを役に立つ行動に変えられる世界は、おそらくそれほど遠くない」と付け加えている。

「そのようなスキルがあれば、ロボットは道具として、ガイドとして、仲間として、あるいはエンターテイナーとして、人々と共に、あるいは人々の周りで作業する際に、より良いパフォーマンスを発揮できるようになります。」®

Discover More