ディープマインド社のAIボット「アルファスター」は、オンラインリーグのプレイヤーの上位0.15%にランクインし、人気の戦闘戦略コンピュータゲーム「スタークラフトII」でグランドマスターレベルに到達した。
StarCraft II は複雑なゲームであり、独自のプロトーナメントである StarCraft II World Championship Series が毎年開催され、多くのファンが熱狂しています。このトーナメントでは、200 万ドルを超える賞金をかけて最強の国際チームが競い合います。
しかし、AlphaStarはその大会に出場するには実力が足りなかった。そこで同社は、中国に進出しているゲーム企業Blizzard Entertainmentが主催するゲームの公式オンラインリーグ「Battle.net」で開催される、はるかに小規模な大会に目を向けた。
Google傘下のDeepMindの研究者たちは、ボット「AlphaStar」を、対戦相手がコンピューターと対戦していることを全く知らない状態で、一連のブラインドゲームに投入しました。3つのニューラルネットワークが、ゲーム内の各種族として1対1の対戦を行うように訓練されました。AlphaStarには、AlphaStar Supervised、AlphaStar Mid、AlphaStar Finalという3つのバージョンもありました。
「監督下エージェントは人間のプレイヤーの上位16%に評価され、中間エージェントは上位0.5%以内、最終エージェントは平均して上位0.15%以内に入り、3つの種族すべてでグランドマスターレベルの評価を達成した」と、今週ネイチャー誌に掲載された論文で発表された結果には記されている。
AlphaStar はグランドマスターの地位を獲得したかもしれないが、その代償はいくらだったのだろうか?
AlphaStar Finalは、全試合中最高の成績を収め、Battle.netリーグのアマチュアプレイヤーの99.8%を上回りました。このオンライン大会にはヨーロッパ地域だけで約9万人のプレイヤーが参加していますが、AlphaStarは全員と対戦したわけではありません。
実際には、AlphaStar Supervisedは合計90ゲームをプレイし、AlphaStar Midは180ゲームをプレイしました。ただし、AlphaStar Finalのパフォーマンスは最初から計算されたわけではなく、AlphaStar Midが中断したところから開始し、さらに90ゲームをプレイした後の結果です。
StarCraftは、機械学習技術のみでコンピュータがマスターするのは不可能に近いほど困難です。ゲームの各ステップでボットが実行できるアクションは最大10の26乗通りあります。そのため、トレーニングプロセスでは、人間のゲームプレイを観察して得られた事前知識がボットに入力されます。
AlphaStarには人間にはないもう一つの強みがあります。練習すれば(ほぼ)完璧になれるという考え方です。このボットは数百万回ものゲームをプレイし、人間の一生よりも長い経験を積み、ゲームを熟知しました。
このボットは、人間の戦略を模倣し、セルフプレイと呼ばれる手法を用いて複数のバージョンの自分自身と対戦することで、ゲームのプレイ方法を学習しました。そのため、このボットは独自の新しい戦略を考案するのに苦労しており、堅実なプレイヤーではあるものの、これまで遭遇したことのない戦術に対してはそれほど強力ではありません。
コンピューターにStarCraftのプレイを教えるには、膨大な計算量が必要で、途方もない量のリソースが必要です。DeepMindはGoogle TPU v3数学アクセラレーターを384個必要としました。各ユニットには8つのコアが搭載されているため、44日間のトレーニング期間で合計3,072コアという驚異的な数です。このウェブ巨人の現在のクラウド料金では、TPU v3を1時間あたり8ドルでレンタルできます。
人間のスタークラフトII eアスリート、ニューラルネットのエース、DeepMindのAlphaStarに圧倒される
続きを読む
つまり、理論上、384個のTPU v3チップを44日間連続で稼働させると、私たち人間で計算コストは3,244,032ドルになります。これは、ごく少数のAI研究機関しか負担できない金額です。DeepMindは大幅な割引を受けたことは間違いありません。
しかしディープマインドは、スタークラフトのような難しいゲームをマスターするように機械学習モデルを教えることは、コンピューターが「限られた情報を利用して、複数のレベルと時間スケールに影響を及ぼす動的で難しい決定を下す」必要がある現実世界のシナリオで役立つ可能性があるため、すべての努力は価値があると考えている。
「アルファスターの開発に使用した技術は、AIシステム全般の安全性と堅牢性をさらに高め、現実世界の領域での研究の発展に役立つことを期待しています」と同社は声明で述べた。
しかし、StarCraft のような分野から学んだ戦略が現実世界に適用できるという研究や証拠はまだ見つかっていない。
AlphaStar の動作をここでご覧いただけます。®