AIの未来:NVIDIAの研究者は「動くものはすべて最終的には自律的になる」と期待

Table of Contents

AIの未来:NVIDIAの研究者は「動くものはすべて最終的には自律的になる」と期待

ビデオGenAIサミット2024が水曜日、カリフォルニア州サンフランシスコのパレス・オブ・ファイン・アーツで開幕したが、人工知能について聞きに来た人々は大混乱を起こした。

午前9時頃、イベントがいよいよ始まる頃、会場の外では大勢の参加者が乱雑な列を作り、スタッフがバッジを探すのに追われて足止めされていました。この記者はメディア関係者であることを告げただけで、身分証明書の確認や確認なしに入場できました。皆、ただショーを楽しみたかったのです。会場内では、VIP限定のAGI基調講演への入場も、同様に緩いものでした。

NVIDIAのシニアリサーチサイエンティストであり、AIエージェント・イニシアチブのリーダーを務めるジム・ファン氏は、クロード・シャノンのチェスマシン「エンドゲーム」から人工知能の歴史を振り返り、講演の幕開けを飾りました。「エージェント時代」への道のりにおける様々なマイルストーンについても言及されました。

Fan 氏のプレゼンテーションの最後から始めると、エージェント時代とは AI テクノロジーが向かう方向であり、基礎モデルが他のモデルやシステムとどのように相互作用するかを調整するソフトウェア エージェントの開発へと向かう時代です。

ファン氏は、「エージェント」時代は、AI の「生成」、「ニューラル」、「古典的」時代の次の技術的ステップであると主張している。

「動くものはすべて最終的には自律走行になる未来を信じている」とファン氏は、それがもたらす潜在的な影響については考えずに語った。

Fan 氏は、Nvidia の GEAR Lab での仕事を通じてそのビジョンを実現しようとしています。GEAR は Generalist Embodied Agent Research (ジェネラリスト体現エージェント研究) の略です。

Jim Fan 氏の GenAI Summit 2024 プレゼンテーションのスライド

Jim Fan 氏の GenAI Summit 2024 プレゼンテーションのスライド - クリックして拡大

ファン氏によると、ジェネラリストエージェントは、無限の世界を生き延び、移動し、探索する能力が必要だ。その世界に関する広範な知識を持ち、ほぼあらゆるタスクを実行できる必要がある。

「まず、環境は十分にオープンエンドである必要があります。なぜなら、エージェントの能力は最終的に環境の複雑さによって上限が制限されるからです」とファン氏は述べた。「そして、私たちが住む地球はまさにその好例です。地球は非常に複雑なため、数十億年をかけて自然進化と呼ばれるアルゴリズムによって、この部屋にいるすべての人間を創造することが可能なのです。」

ファン氏は、「ゼロから探索するのは不可能なので、膨大な量のデータも必要になります。学習をブートストラップするには、ある程度の常識が必要です」と述べた。

さらに彼は、これらすべての情報源から学習できるほど強力な基盤モデルが必要だと述べた。「そして、この考え方がMinecraftへと繋がったのです」とファン氏は語った。

Fan 氏は、Minecraft と、シミュレーター、データベース、エージェントで構成される MineDojo、Minecraft の生涯学習エージェント Voyager、ロボットのトレーニング用エージェント Eureka、MetaMorph、Isaac Sim などの関連プロジェクトを通じて、技術者が基礎的なエージェントをトレーニングして、さまざまな有用なタスクを実行できるようになると考えています。

Minecraftは、エージェントに特定のタスクの実行方法を教えるシミュレーターとして使用できます。Isaac Simを使えば、そのトレーニングを驚くほど迅速に行うことができます。

「Isaac Sim の最大の強みは、物理シミュレーションをリアルタイムの 1000 倍以上高速に実行できることです」と Fan 氏は語ります。

  • MIT教授、AIが経済に衝撃を与えるという予測を否定
  • 中国が機関銃を携えたロボット犬とAI搭載の子犬を披露
  • コロラド州知事が「世界最高」の修理権法に署名
  • 元OpenAI理事がサム・アルトマン氏を「完全に嘘をついている」と非難

言い換えれば、チャットボットから現実世界で有用なタスクを実行できるロボットへの道は、数年分のトレーニングを数日で詰め込めるシミュレーションツールによって大幅に短縮されるということです。実際、ロボットハンドに指でペンを回すように教えるというデモンストレーションでは、ハードウェアが十分な性能を備えていれば、ソフトウェアはほとんどの人間のペン回しよりも優れたパフォーマンスを発揮するでしょう。

「ペンを回すのにこれほどの力と機敏さを持つ5本指ハードウェアハックは、実は世界に存在しません」とファン氏は述べた。「ですから、ハードウェアプロバイダーがEurekaに追いつくのを待ち続けているのです。」

しかし、ロボット犬に変形可能なヨガボールの上で歩いたりバランスを保ったりすることを教えるといったいくつかの用途では、基礎剤は有望であるように思われます。

YouTubeビデオ

「基礎エージェントのトレーニングはChatGPTと非常に似ていると思います」とファン氏は述べた。「すべての言語タスクはテキスト入力とテキスト出力で表現できます。ChatGPTは、大量のテキストを使ってスケールアップすることで、単純にそれをトレーニングします。そして、この点でも非常に似ているのは、基礎エージェントが具体化仕様と言語指示をプロンプトとして受け取り、それに基づいてアクションを出力することです。」

「基盤エージェントは、GEAR ラボの次の章です。」

ロボットがやってくる。®

Discover More