今年初めにテキサス・ホールデム・トーナメントでプロのプレイヤーを圧倒したポーカーAIボット、Libratusの設計図が月曜日の研究論文で発表された。
ソフトウェアが人間に勝利したことは、コンピューターが不完全情報ゲームを制覇したことを実証したとして、大きな話題を呼びました。チェスや囲碁のように盤上のすべての駒を常に見ることができるゲームとは異なり、ポーカーでは相手のカードが分からないため、より確率に基づいた戦略を立てなければなりません。
2月に開催されたヘッズアップ・ノーリミット・テキサス・ホールデム・ポーカートーナメントで、Libratusは12万ハンド以上をプレイし、圧倒的な勝利を収めました。Libratusは、1ゲームあたり14.7ビッグブラインド差で対戦相手を圧倒し、賞金総額1,776,250ドルを獲得しました。
今回、Science誌に掲載された論文で、Libratusのプログラミング方法が明らかになった。Libratusの開発者である、米国カーネギーメロン大学の博士課程学生ノアム・ブラウン氏とコンピュータサイエンス教授のトゥオマス・サンドホルム氏は、3つのアルゴリズムを採用した。
「我々のゲーム理論的アプローチは、アプリケーションに依存しない技術を特徴としている。すなわち、全体的な戦略の青写真を計算するアルゴリズム、プレイ中に到達するサブゲームの戦略の詳細を具体化するアルゴリズム、そして対戦相手が青写真戦略で特定した潜在的な弱点を修正する自己改善アルゴリズムである」と2人の論文には記されている。
最初のアルゴリズムは、競技会後に「反事実的後悔最小化」として簡単に議論されました。このアルゴリズムは、ポーカーのよりシンプルなバージョン(ヘッズアップ・ポットリミット・テキサスホールデム)を、約10の13乗個のノード(ノーリミットゲームで起こり得るすべての固有の決定をカバーするのに必要な10の161乗個のノードよりもはるかに少ない)を含む事前計算済みの決定木を用いてモデル化し、シミュレーションされた試合を何度もプレイすることで、徐々に決定木から最善の動きを選択することを学習しました。
流されて
ブラウン氏は今週、似たようなハンドがグループ化されていると説明した。「直感的に、キングハイフラッシュとクイーンハイフラッシュにはほとんど違いはありません。これらのハンドを同一視することで、ゲームの複雑さが軽減され、計算が簡単になります。」また、例えば100ドルを賭けるか101ドルを賭けるかは基本的に同じなので、ここでも賭けの判断を簡素化できる。
つまり、Libratus は基本的に、手札と盤上のカードに応じて動きを選択するための、かなり単純な重み付け決定ツリーからスタートしました。
次に、ソフトウェアを超人的なレベルにまで高めるため、ハンドの後半のベッティングラウンドでは、より高度な戦略を瞬時に実行します。プレイがその段階に達すると、より詳細できめ細かなテキサスホールデムの抽象化モデルがリアルタイムで生成され、ハンドを最も効果的に勝ち抜くための戦略が立てられます。このアルゴリズムは「ネストされたサブゲームソルビング」と呼ばれています。
Libratusの対戦相手の一人であるドン・キム氏は以前、「AIが進化し続けているため、競争は非常に厳しい」と述べていました。ここで3つ目のアルゴリズムが登場しました。Libratusは一度オフラインでトレーニングし、ハンド中にリアルタイムで推論を用いて意思決定を行うだけでなく、「自己改善」モジュールによって意思決定プロセスを洗練させていました。
機械学習を用いて、対戦相手の手に基づいて、全体的な「青写真」決定モデルの欠落した分岐を埋めた。「原理的には、このような計算をすべて事前に行うことは可能だが、ゲームツリーが大きすぎるため、実現不可能だ」と論文は述べている。
Libratusは、人間のライバルのプレイを観察し、比較的シンプルな「青写真」のような決定木に、それらの対戦相手に勝つためのノードを追加して肉付けしました。対戦相手のベット額の頻度を分析し、一晩で自己更新することで、対戦を通して改善を重ねました。
フェルト化!AIポーカーボットLibratusが過酷なトーナメントでプロを圧倒、180万ドル獲得
続きを読む
Libratusは計算コストが高く、ピッツバーグ・スーパーコンピュータ・センターの高性能コンピュータであるBridgesシステムによって動作していました。最大1.35PFLOPS(1秒あたり1000兆回以上の浮動小数点演算処理能力)を達成できました。Libratusはトーナメント全体で約1,900万コア時間の計算を消費しました。
「私たちが開発した技術は、主にドメインに依存しないため、レクリエーション以外の用途も含め、他の戦略的な不完全情報相互作用にも応用できる」と論文は結論づけている。
もちろんこれはシステムの概要であり、論文ではさらに詳細に説明されています。ただし、Libratusの基盤となる技術は、サンドホルム氏が今年3月に設立したスタートアップ企業Strategic Machineに独占的にライセンス供与されているため、コードは公開されません。
今年のニューラル処理情報システム会議(NIPS)でのLibratusのデモンストレーション中に、サンドホルム氏はThe Registerに対し、このAIは金融や情報セキュリティなど、現実世界における戦略的決定の計算に使用できると語った。
サンドホルム氏は、この技術は、ゼロデイ脆弱性を悪用するハッカーを組織が阻止するのに役立つ可能性があると述べた。ゼロデイ脆弱性とは、ソフトウェアのバグが、そのような攻撃を防御しようとする人々には知られていない状況を指す。一方、ノアム氏とサンドホルム氏によるネストされたサブゲーム解法に関する研究 [PDF] は、NIPS 2017で最優秀論文賞を受賞した。®