FacebookとCMUの研究者が開発したエースホールAIボットが、いかにして人間のポーカープロを圧倒したか

Table of Contents

FacebookとCMUの研究者が開発したエースホールAIボットが、いかにして人間のポーカープロを圧倒したか

分析人工知能ソフトウェアは、1対1の試合でポーカーのプロやアマチュアに余裕で勝つことができることは分かっています。

今回初めて、6人対戦のノーリミット・ホールデム・テーブルで人間のプロに勝てるAIボットが開発され、木曜日のサイエンス誌に掲載された学術論文で説明されている。

Pluribusと名付けられたサイバーサメは、8日間にわたり数兆回ものゲームを繰り返しプレイすることで、この人気カードゲームの遊び方を習得しました。ワールドシリーズ・オブ・ポーカーのトーナメント優勝者であるクリス・ファーガソンとマイケル・ガリアーノを含む5人の一流ポーカープロを相手に1万ハンドをプレイした結果、Pluribusは圧勝しました。

論文の筆頭著者であり、Facebook AI Researchの研究員であるノーム・ブラウン氏によると、もしAIボットがチップではなくリアルマネーでプレイしていたとしたら、プロプレイヤーを相手に6人制ノーリミット・ホールデムをプレイして、1時間あたり平均1,000ドルを稼いでいただろうとのことだ。私たちの知る限り、このソフトウェアは、バイイン10,000ドルの$50/$100ノーリミット・ホールデムのキャッシュゲームをプレイしていた。

Pluribus の中心となるのは、他のポーカー ボットでも使用されている、反事実的後悔最小化 (CFM) と呼ばれるセルフプレイ アルゴリズムです。

このソフトウェアは、基本的に自身の複数のコピーと対戦することで、徐々にスキルを向上させていきます。仮想プレイヤーのテーブルが作成され、ランダムな戦略が与えられます。アルゴリズムの各反復ごとに、1人のプレイヤーがいわゆるトラバーサーとして選出されます。

反復処理におけるギャング間の各ハンドのシミュレーション後、コードはトラバーサーのプレイの良し悪し、そして既知の個々の戦略を前提とした場合、仮想対戦相手に対してトラバーサーがより良いプレイができたかどうかを検証します。アルゴリズムはトラバーサーの反事実的後悔、つまりトラバーサーが結果的に有利になったであろう動きをしなかったことをどれだけ後悔したかを計算します。反復処理の終了時に、この反事実的後悔を用いてトラバーサーの戦略が更新され、以前に後悔した行動を将来行う確率が高まります。そして次の反復処理に進み、別のトラバーサーが選択されます。

これはかなり賢いやり方です。なぜなら、ソフトウェアは、例えば、良いハンドを持っているときにコールすべきだったか、他のプレイヤーを追い出す必要があるときにレイズすべきだったか、コールするリスクに見合わないときにフォールドすべきだったかなどを、苦労して学ぶからです。

テーブルで

Pluribusは前述の通りトレーニングを終えると、人間のポーカーエキスパートと対戦しました。ソフトウェアの判断は、生身の対戦相手のプレイを観察することで、ゲーム中に改善されました。Pluribusはゲーム中に4つの戦略を検討しました。「ブループリント」と呼ばれる事前に計算された戦略に固執する戦略、積極的にレイズする傾向を強める戦略、ニットのようにプレイしてフォールドする傾向を強める戦略、そしてコーリングステーションになる傾向を強める戦略です。

テーブルに配られたカードを確認する際、非公開で保持している 2 枚のカード (ホールカード) は無視し、代わりにテーブル上のコミュニティ カードを考慮して保持している可能性のあるすべてのカードの組み合わせを実行し、それぞれに対して実行するアクションを決定しました。

ポーカー

暴露:Libratusボットがポーカープロを圧倒した方法 ― そして今、サイバーセキュリティにも狙いを定めている

続きを読む

重要なのは、常にハンドの強さや弱さを明かさないよう(たとえば、常にエースでレイズしたり、常にスリーカード以下のカードをフォールドしたりしないなど)アクションのバランスをとるようにプログラムされている点です。

次に、実際のホールカードを確認し、その組み合わせに割り当てられたアクションを実行しました。これにより、ブラフ、アグレッシブ、トラップなど、一目瞭然で予測不可能なバランスの取れたアクションが実現しました。このアプローチは、Pluribusが5人のプレイヤーと対戦する場合も、5台のボットと1人のプレイヤーと対戦する場合も、うまく機能しているように見えました。Pluribusは、他の4台のボットと1人のプレイヤーと5,000ハンド以上対戦した場合でも、圧倒的な勝利を収めました。

「ポーカーボットと対戦し、彼らが選んだ戦略をいくつか見るのは非常に興味深い経験でした」と、2016年にワールドシリーズオブポーカーのブレスレットを獲得したマイケル・ガリアーノ氏は語った。「特にベットサイズに関しては、人間が絶対にやらないようなプレイがいくつかありました。」

タイトなマルチブレスレットプレイヤーとして知られるクリス・「ジーザス」・ファーガソンは、「プルリバスは非常に手強い相手です。どんなハンドでも彼を攻略するのは本当に難しいです。彼はリバーで薄いバリューベットをするのがとても上手です。良いハンドからバリューを引き出すのがとても上手です」と付け加えた。

さて、いくつか注意点を整理しておきましょう。まず、これは実際のお金を使ったものではない、つまり人間には失うものが何もなかったため、違ったプレイをした可能性もあるということです。もっとも、1万ドルは彼らにとって、それが現実であろうとなかろうと、大した金額ではありません。また、人間は大多数のポーカープレイヤーよりもはるかに優れており、何百万ドルもの賞金を獲得していますが、世界最高のプレイヤーというわけではありません。フィル・アイビー、ダニエル・ネグラーヌ、ヒョードル・ホルツ、エリック・ザイデル、ジャスティン・ボノモといった人たちです。つまり、このソフトウェアが人類全体を打ち負かしたわけではないということです。

それはさておき、これはかなりクールな技術です。猛烈なプロを追い抜くことができます。

GPUは不要

Pluribusは64個のCPUコアを搭載したサーバー上でトレーニングされ、8日間で合計12,400CPUコア時間実行されました。必要なメモリは512GB未満でした。Facebookとカーネギーメロン大学(CMU)の開発者たちは、パブリッククラウドインスタンス経由でコンピューティングリソースをレンタルしていた場合、トレーニング費用は150ドル未満で済むと見積もっていました。

トレーニング後、Pluribusは2基のCPUを搭載し、128GB未満のメモリを必要とするシステム上で人間の対戦相手と対戦しました。ゲーム中の各アクションの探索処理には、通常1秒から33秒かかります。

「この分野の専門家の中には、将来のAI研究が数百万ドル規模の計算資源にアクセスできる大規模なチームによって支配されるようになるのではないかと懸念する人もいます。Pluribusは、わずかなリソースしか必要としない革新的なアプローチが最先端のAI研究を推進できることを示す強力な証拠だと考えています」とブラウン氏は述べています。

ポーカーの複雑さを軽減する

Pluribusは、前身のDeepStackやLibratusとそれほど変わりません。CFMアルゴリズムは引き続き使用しますが、ナッシュ均衡の計算には依存しなくなりました。ナッシュ均衡とは、ゲーム理論で提唱されている最適安定戦略を求める解法で、他の対戦相手が均衡から逸脱しなければ、自分も均衡から逸脱するインセンティブがない状態を指します。例えば、じゃんけんにおけるナッシュ均衡とは、対戦相手も同じことをしていると仮定し、3つの選択肢からランダムに選択することです。

ナッシュ均衡の計算は、対戦相手が1人だけであれば問題ありません。しかし、ゲームに3人以上のプレイヤーが参加すると、コンピューターの処理能力を超えてしまいます。Pluribusは、自己プレイから得たポーカーの知識と、ゲーム全体ではなく数手先だけを考慮する探索アルゴリズムを組み合わせます。

複雑さを軽減するために、探索プロセスはさらに簡素化されています。すべてのアクションを考慮する必要はなく、ゲーム内の類似した意思決定ポイントはまとめて同一のものとして扱われます。研究者たちはこれを抽象化と呼んでおり、Pluribusはどのようなアクションを取るべきか、どのような情報が利用可能かを検討する際にこれを利用しています。

「アクションの抽象化により、AIが考慮する必要のある異なるアクションの数を減らすことができます。ノーリミット・テキサス・ホールデムでは通常、100ドルから1万ドルまでの任意の金額を賭けることができます。しかし、実際には200ドルを賭けることと201ドルを賭けることの間にはほとんど違いはありません。戦略を立てる際の複雑さを軽減するため、Pluribusは特定の意思決定ポイントにおいて、いくつかの異なる賭け金額のみを考慮します」と、彼らは論文に記しています。

情報の抽象化という観点から見ると、テンハイストレートとナインハイストレートは異なるカードの組み合わせですが、結果として得られる戦略は似ています。AIボットはこれらをグループ化し、同一のものとして扱うため、それぞれのシナリオで異なる戦略を計算する必要はありません。

ポーカーは、各プレイヤーがハンド中に他のプレイヤーが持っているカードを見ることができないため、解決が複雑な問題です。これは不完全情報ゲームです。抽象化を用いることで、ゲームの複雑さが軽減され、複数の相手と効果的に対戦できるようになります。

オンラインポーカーはおそらく破滅しないのでしょうか?

ありがたいことに、コードは公開されないため、ポーカー愛好家が独自のAIマスターボットを開発してオンラインで手っ取り早く儲けようとするのは不可能です。実際、コードの主要部分はCMUのコンピュータサイエンス教授、トゥオマス・サンドホルム氏が率いる研究室で書かれたため、ソフトウェアのライセンスは、サンドホルム氏が設立したStrategic MachinesとStrategy Robotという2つの企業に帰属しています。

Facebookは研究目的でそのコードの構築に協力しました。サンドホルム氏はThe Registerに対し、Pluribusはポーカーに使用されているものの、不完全な情報を伴う同様のシナリオにも適用できると述べました。

Strategic Machineは、ゲーム、金融、ヘルスケアなど、幅広い業界への技術応用を検討しています。Strategy Robotは軍事分野に特化しており、諜報やセキュリティなどの分野をターゲットとしています。

「フェイスブックが私と協力している追加のコードはポーカーに特化したものなので、そのコードは防御アプリケーションには使用できません」とサンドホルム氏は付け加えた。®

Discover More