OpenAI の機械学習ボットが、伝統的な 5 対 5 の設定での 2 回目の公開試合で、Dota 2 の別のセミプロのチームに勝利しました。
試合の模様はTwitchでこちらからご覧いただけます。コメント欄には数秒ごとに「SKYNET!」と入力するコメントも掲載されています。また、結果の概要はこちらをご覧ください。
人気Twitchストリーマーと99.95パーセンタイルランキングの元プロプレイヤーで構成された人間チームは、日曜日にサンフランシスコでOpenAI Fiveと呼ばれるボットチームと対戦するために準備を整えた。OpenAI Fiveは対戦相手を圧倒し、3試合中2試合で快勝した。
しかし、試合をライブ配信やTwitchで観戦していた観客がヒーロー(ゲーム内でプレイ可能なキャラクター)を選べるようになったため、1試合負けてしまいました。ヒーローにはそれぞれ長所と短所があり、バランスの取れた組み合わせを選ぶことが勝利の鍵となります。同じ役割のキャラクターが多すぎると、相手チームに圧倒されてしまいます。観客が選んだチームはバランスが悪かったのです。このような状況下で初めて、人間たちは機械に復讐することができたのです。
OpenAIボットがDota 2のヒーローに勝つには何が必要か?128,000個のCPUコア、256個のNvidia GPU
続きを読む
Dota 2は習得が難しいゲームです。チームワーク、戦略的思考、そして戦闘中の素早い反応速度が求められます。OpenAIは長年にわたりDota 2の攻略に取り組んできました。昨年、OpenAIのボットの一つが、現実の試合とはかけ離れた非常に限定された設定下で、プロプレイヤーのDendiに勝利しました。
しかし今年、OpenAIは機械学習システムの拡張に必要なハードウェアとエンジニアリングの量を増やした後、人間と機械の競争条件を平等にするために多くの制限を解除しました。
OpenAI Fiveは、5つの同一の長短期記憶ネットワークで構成されており、それぞれアリの脳ほどの大きさだそうです。このロボットは、膨大な数の対戦を通してDota 2のプレイ方法を学習し、トレーニング期間中、毎日180年分もの経験を積み上げました。これは5つのボットで合計900年分の経験値に相当し、人間のチームでは決して達成できないものです。
「6月からほぼ休みなくトレーニングを続けており、ゲームごとにCPUを消費しています」とOpenAIの技術スタッフメンバーであるJie Tang氏はThe Registerに語った。
第2ラウンド
ボットは従来の5対5の対戦方式でプレイできるようになりました。6月の初戦では、OpenAIはミラーマッチ(ボットチームと人間チームが全く同じヒーロー(ネクロフィア、スナイパー、ヴァイパー、クリスタルメイデン、リッチ)で、ランキング93~99パーセンタイルのやや実力の低いセミプロチームを相手に快勝しました。
このシステムは、強化学習アルゴリズムである近似方策最適化(Proximal Policy Optimization)を用いて学習されました。6月の試合では、Google Cloud上で12万8000個のCPUコアと256個のNvidia P100 GPUという驚異的なリソースを消費しました。
タン氏によると、今回の試合に向けたトレーニングでは、さらに多くのCPUとGPUが必要になったという。トレーニングに必要な計算量は、最初のセミプロ試合で使用したシステムの40ペタフロップス/秒/日に対して、最新の練習試合では190ペタフロップス/秒/日に増加した。
これまでの制限の一部が解除されたため、膨大な計算が必要となりました。具体的には以下のとおりです。
- 1試合でプレイできるヒーローの数が5人から18人に増加しました
- ミラーマッチはなく、両チームは18人のヒーローから自由に選択できる。
- 反応時間は80ミリ秒から200ミリ秒に増加しました
- スキャンなし - プレイヤーはミニマップをスキャンして見えない敵を偵察することができない
- ゲームをより複雑にするために、より多くのアイテムが許可されました。例えば、体力を回復するボトルなどのアイテムがプレイヤーによって使用できるようになりました。
しかし、OpenAI Fiveは依然としていくつかの大きな優位性を維持している。数フレームごとにマップ全体を一度に確認できるため、攻撃範囲の計算が容易になる。反応時間は向上し、人間の速度に近づいたとはいえ、依然として機械の優位性は健在だ。
元SalesforceのAI研究者であるスティーブン・メリティー氏は、人間はボタンをクリックする速度は人間と同じくらい速いものの、それは重要度が低く、筋肉の記憶に頼る動きの場合に限られると指摘した。しかし、戦闘中に行動を起こす前に敵のインベントリを確認したり、どの呪文を唱えたかを思い出すなど、より戦略的な判断を必要とする重要な判断には、人間が実行するには200ミリ秒以上かかる。
人間は刺激に対して215ミリ秒で反応できるかもしれないが、それはおそらく情報に基づかない筋肉の記憶による反応だろう。OAI5、そして基本的に他のあらゆる自動意思決定システムは、はるかに豊富な分析を行い、同じ時間内にはるかに優れた意思決定を下すことができる。
— スメリティ(@Smerity)2018年8月5日
ヒーローを追加すると、情報量が増え、考慮すべき可能性が増えるため、ゲームはより複雑になります。試合後のインタビューで、OpenAIのスタッフは、これによりゲームの組み合わせの数が1100万通り以上に増えると述べました。
これらすべてのゲームをプレイするのは不可能ですが、OpenAI Fiveは人間チームを圧倒しました。最初から積極的にプレイし、敵のタワーを一直線に破壊し、対戦相手を倒すという戦略を忠実に守り抜いたのです。
最初の試合では、最初の5分で勝率が99%と計算されました。そして21分後、ボットがマップを制圧したため、人間チームは敗北しました。2回目の試合では、人間チームはわずかに良い成績を収め、25分間持ちこたえました。
元プロDota 2選手兼コーチのウィリアム・リー(通称「ブリッツ」)は、ボットとの対戦は「かなり奇妙な感じ」だったと語った。「何が起こるか全く予想がつかなかった。本当に堅実なチームと対戦しているような感覚だった。彼らはレスポンスが良く、チームワークも抜群だ」
これまでの試合はすべて練習であり、今月末にカナダのバンクーバーで開催される賞金総額2,400万ドルの年次Dota 2トーナメント、The Internationalでの最終戦に間に合うようにマシンの進歩をベンチマークするために使用されました。ただし、ボットはこれに参加できません。
OpenAI Fiveは、100人以上のヒーローが登場するゲームの複雑さを制限した同じ制限の下で、プロチームと対戦します。リー氏は、今回OpenAI Fiveが勝つと予想しているか尋ねられました。少しためらった後、彼はこう答えました。「OpenAI Fiveに少し期待しています。プロチームに勝つでしょう。」®