チェックメイト:DeepMindのAlphaZero AIが非対等なゲーム、いや、ボード上でライバルのチェスアプリを圧倒

Table of Contents

チェックメイト:DeepMindのAlphaZero AIが非対等なゲーム、いや、ボード上でライバルのチェスアプリを圧倒

分析ディープマインドは今月、同社の最新AIシステム「アルファゼロ」が、わずか数時間でチェス、将棋、囲碁を「超人レベル」までマスターしたと主張した。

素晴らしい話に聞こえるし、ある程度はそうかもしれない。しかし、あまりにも良すぎて完全に真実だとは言い切れないこともある。今、専門家たちはAlphaZeroの成功度に疑問を呈している。

AlphaZeroは、昨年18回囲碁チャンピオンに輝いたイ・セドル氏を破った機械学習ソフトウェアのAlphaGoと、AlphaGoを100対0で破ったAlphaGoのアップグレード版であるAlphaGo Zeroをベースにしている。

AlphaGo Zero と同様に、AlphaZero は自分自身と対戦することでゲームのプレイ方法を学習しました。これは、強化学習における自己対戦と呼ばれる手法です。

「ランダムなプレイから始まり、ゲームのルール以外のドメイン知識を与えられなかったアルファゼロは、24時間以内にチェスと将棋(日本のチェス)、そして囲碁で超人的なレベルのプレイを達成し、いずれの場合も世界チャンピオンのプログラムを圧倒した」とディープマインド研究チームはアルファゼロの設計を詳述した論文に記している。

AlphaZeroは、昨年のTop Chess Engine Championship(TCEC)で優勝したチェスAIプログラム「Stockfish」と対戦しました。AlphaZeroはStockfishに対して28勝、72引き分け、無敗の成績を残しました。

チェスに似た日本の戦略ゲームである将棋は、より複雑です。AlphaZeroは将棋コンピュータエンジンElmoに90勝、2引き分け、10敗という結果でした。

AlphaZeroには2つのボードゲームのルールが提供され、システムは6800万回の自己対戦を通して両方のルールを習得しました。言い換えれば、AlphaZeroはチェスをStockfishに勝てるレベルまで習得するのに4時間かかり、ゲーム形式に合計9時間を費やしました。一方、将棋をElmoに勝てるレベルまで習得するのには2時間もかかりませんでした。AlphaZeroはDeepMindの囲碁AI AlphaGo Leeにも8時間のトレーニングで勝利しました。

これは印象的な偉業だが、実験を慎重に操作することで達成されたものだ、とAI研究者であり国際的なチェスマスターでもあるホセ・カマチョ・コリャドス氏は今週の分析で主張した。

期待を裏切って申し訳ないが、マイクロソフトの「ミズ・パックマンを倒すAI」は自動バカだ

続きを読む

まず、DeepMindはGoogleの親会社Alphabet傘下であり、膨大な計算能力を保有しています。AlphaZeroは、GoogleのTPUアクセラレータチップの第2世代であるTPU2を64個と、なんと第1世代TPUを5,000個も用いて学習を行い、AlphaZeroがプレイするセルフプレイゲームを生成しました。

つまり、Camacho Collados氏が指摘したように、AlphaZeroのTPU1基あたりのトレーニング時間はおよそ2年です。この処理能力とは対照的に、StockfishとElmoには64個のx86 CPUスレッドと1GBのハッシュサイズしか与えられておらず、そもそも両ゲームエンジンは同等の性能ではありませんでした。

AlphaZeroはニューラルネットワーク専用の演算処理ハードウェアで動作しましたが、対戦相手はPCで動作していました。スーパーカーとフォード・フォーカスの対決を想像してみてください。

「実験環境は公平ではないように思います」とカマチョ・コラドス氏は述べた。「使用されたStockfishのバージョンは最新版ではありませんでしたが、さらに重要なのは、リリース版のStockfishが通常のPCで実行されていたのに対し、AlphaZeroははるかに高い処理能力で実行されていたことです。例えば、TCECの大会では、同じプロセッサを搭載したエンジン同士が対戦します。」

次に、DeepMindの論文では、AlphaZeroとStockfishの両システムに1分間の制限時間が与えられたと述べられています。これはトーナメントでは非常に異例のことです。周知の通り、チェスの試合では通常、プレイヤーはすべての手を動かすための時間枠を与えられ、手ごとにカウントダウンされることはありません。例えば、世界チェス連盟はプレイヤーに「最初の40手は90分、その後は30分、1手目から1手ごとに30秒ずつ加算される」という制限時間を与えています。

つまり、序盤の手番などのアクションを素早く実行することで、後盤の戦略を実行するための時間(必要であれば1分以上)を確保できるということです。Stockfishは、1分間のショットクロックではなく、一定時間かけて通常のチェスのようにプレイできるように設計されています。

一方、AlphaZeroは分刻みのプレイに最適化されていました。ニューラルネットワークは盤上の局面を入力として複数の手を提示し、各手において最も勝率の高い手を選びました。これは、自己プレイとモンテカルロ木探索アルゴリズムを用いて、潜在的な戦略を選別することで学習されました。

カマチョ・コリャドスは次のように指摘した。

1 分間のタイムアウトを採用し、競合他社より劣るという決定は、DeepMind にとって非常に都合がよいように思われます。

DeepMindはゲームシステムのコードを公開していないため、AlphaZeroを真に精査することは困難です。主張されている内容をテストし、結果が再現可能かどうかを確認することは不可能です。

論文では、研究者らがAlphaZeroとStockfishの間で行われた10のゲームを厳選し、AlphaZeroの勝利を示しました。将棋でElmoに敗れた結果は公表されていないため、このソフトウェアのどこが劣っていたのかは分かりません。

「科学論文では、より包括的な理解を深め、他の研究者がそれを基に研究を進めることができるように、提案されたシステムが何らかの弱点を示したり、うまく動作しない可能性がある例を示すのが通例だ」とコラドス氏は書いている。

「AIブームの時代である今、いわゆるブレークスルーは科学的に慎重に精査すべきです。この分野の研究者には、自らの成果を正確に説明し、宣伝し、(しばしば利己的な)誤情報やこの分野における神秘化を助長しないよう努める責任があります。」

「私は個人的に、ディープマインドがAI分野で重要な発見を達成する可能性に大きな期待を抱いていますが、これらの成果が同僚によって容易に評価され、社会に貢献できるような形で発展することを願っています。」

エル・レグ氏が今週個人的に話した他の機械学習の専門家たちは、AlphaZero は素晴らしい研究プロジェクトだが、主流メディアが騒ぎ立てているほどの科学的ブレークスルーではないという点で意見が一致した。

ディープマインドの広報担当者はThe Registerに対し、「研究は査読に提出中であり、残念ながら現時点ではこれ以上のことは言えません」と述べ、いかなる主張についてもコメントできないと語った。®

Discover More