MetaのCiceroチャットボットはおそらく外交であなたに勝つでしょう

Table of Contents

MetaのCiceroチャットボットはおそらく外交であなたに勝つでしょう

Metaの研究者は、古典的な戦略ゲーム「Diplomacy」をほとんどの人間プレイヤーに匹敵するレベルでプレイできる「Cicero」と呼ばれる人工知能システムを開発した。

これは自然言語処理における大きな成果であり、先週デビューした Galactica を忘れさせるかもしれない。Galactica は、Meta の研究者たちが、虚偽を事実として提示する科学論文でトレーニングした大規模言語モデルであり、科学界から 3 日間の批判を受けてオフラインになった。

1950年代に開発され、現在はハズブロ社から発売されている『ディプロマシー』は、20世紀初頭のヨーロッパ7大国を舞台に、プレイヤー間のコミュニケーションと交渉に焦点を当てています。一部のゲーマーからは、友人を失うための理想的な方法と見なされています。

このゲームは、ヨーロッパの地図上で領土を奪い合うシミュレーションです。プレイヤーは順番に行動するのではなく、事前に自分の動きを記録し、同時に実行します。対戦相手の反撃によってブロックされる動きを避けるため、プレイヤー同士は密かにコミュニケーションを取ります。協調行動の可能性について話し合い、他のプレイヤーとの約束を守るか守らないかを判断しながら、自分の動きを紙に書き留めます。

ディプロマシーはコミュニケーション、信頼、そして裏切りに焦点を当てているため、チェスや囲碁のようにルールやリソースに重点を置いたゲームとは異なる難しさがあります。シセロは本質的にチャットボットであり、他のディプロマシープレイヤーと交渉してゲームで効果的な動きをすることができます。

シセロの会話のスクリーンショット

シセロの会話のスクリーンショット - クリックして拡大

「外交は数十年にわたり、AIにおけるほぼ不可能な壮大な挑戦とみなされてきた。なぜなら、外交には、プレイヤーが他者の動機や視点を理解する技術を習得し、複雑な計画を立てて戦略を調整し、自然言語を使用して他者と合意に達し、パートナーシップや同盟を形成するよう説得するなど、さまざまなことが必要となるからだ」とメタ氏はブログ投稿で説明した。

「シセロは外交において自然言語を使用して人々と交渉するのが非常に上手なので、人々は他の人間の参加者よりもシセロと協力することを好むことが多かった。」

  • AIが2日間のブリッジトーナメントでトッププレイヤーに勝利
  • たった10ドルで亡くなった愛する人のAIチャットボットを作成
  • AI主導の創造性が、ついに圧倒的なPCにやりがいを与える
  • パンク魂、幸運を感じている?OculusのデザイナーがVR殺人ヘッドセットを開発

Ciceroは、インターネット上のテキストで事前学習された27億パラメータのBART型言語モデルをベースにしており、webDiplomacy.netでオンラインプレイされた4万以上のDiplomacyゲームのデータセットを用いて拡張されています。これらのゲームでは、プレイヤー間で1,200万件以上のメッセージが交換されました。

AI エージェントのダイアログ出力は、さまざまなプレーヤーによる一連の可能な動きを表す「意図」を作成する戦略的推論モジュールに関連付けられています。

「対話の意図を生成し、各ターンに実行する最終的なアクションを選択するために、Cicero は戦略的推論モジュールを実行します。このモジュールは、ボードの状態と共有された対話に基づいて、現在のターンでの他のプレーヤーのポリシー(つまり、アクションの確率分布)を予測し、他のプレーヤーの予測されたポリシーに最適に対応する現在のターンのポリシーを自ら選択します」と Meta の研究者は Science の研究論文で説明しています。

チェスのようなゲームのAIエージェントは強化学習を用いた自己対戦で学習できますが、外交における協力プレイのモデル化には異なる手法が必要でした。Meta氏によると、従来のアプローチでは教師あり学習が用いられ、過去の外交のゲームからラベル付けされたデータを用いてエージェントを学習します。しかし、教師あり学習だけでは、嘘をつくプレイヤーに簡単に操作されてしまう、騙されやすいAIエージェントができてしまいます。

そこでCiceroには、piKLと呼ばれる反復的な計画アルゴリズムが組み込まれています。このアルゴリズムは、ボットと他のプレイヤー間の対話に基づいて、他のプレイヤーの方針と予定されている動きの初期予測を洗練させます。このアルゴリズムは、より良い結果をもたらす可能性のある様々な選択肢を評価することで、他のプレイヤーの予測される動きを改善しようとします。

ディプロマシーで3度の世界チャンピオンに輝いたアンドリュー・ゴフ氏は声明の中で、シセロのゲームへの冷徹なアプローチを称賛した。「多くの人間のプレイヤーは、アプローチを軟化させたり、復讐心に燃え始めたりしますが、シセロは決してそうしません」とゴフ氏は述べた。「シセロは状況を見ながらプレイするだけです。つまり、戦略を実行する際には容赦ないのですが、他のプレイヤーを苛立たせるほどの冷酷さはありません。」

Ciceroは2022年8月19日から10月13日まで、webDiplomacy.netの「ブリッツ」リーグで匿名でDiplomacyを40回プレイし、1回以上プレイした参加者の中で上位10%に入りました。また、5回以上プレイした19人の中では、Ciceroは2位でした。40回プレイしたゲーム全体で、Ciceroの平均スコアは25.8%で、対戦相手82人の平均スコア12.4%の2倍以上でした。

Cicero にはまだ間違いがいくつかあるが、Meta の研究者たちは、長時間の会話が可能なチャットボットや、プレイヤーの動機を理解し、結果としてより効果的にやりとりできるビデオゲームのキャラクターなど、他のアプリケーションにもその研究が役立つと期待している。

Cicero のコードは、AI 開発者コミュニティがさらに改善できることを期待して、オープンソース ライセンスの下でリリースされました。®

Discover More