あなたを殺すかもしれないAIに最初に与える感情は何ですか？はい、恐怖です

人工知能ソフトウェアが人間の能力を凌駕し続けるにつれ、未来への不安が高まるのは当然です。しかし、懸命に働くニューラルネットワークが、誤って私たちを傷つけたり殺したりすることを、一体何が阻止しているのでしょうか？

失敗を犯す AI が人間を傷つけるという恐怖は、SF で頻繁に取り上げられてきました。今日に至るまで、科学者たちはフィクションが現実になるのを阻止しようとしてきました。

カリフォルニア大学サンディエゴ校のザカリー・リプトン氏、マイクロソフトリサーチのジャンフェン・ガオ氏、リーホン・リー氏、ジャンシュ・チェン氏、リー・デング氏といった科学者たちは、コンピューターが重大な判断ミスの結果を決して忘れないようにしようと試みています。

彼らは AI エージェントを「恐怖」に条件付けようとしているのです。

機械は人間のように恐怖を感じることはできません。恐怖は様々な刺激によって引き起こされる複雑な生物学的機能であり、コードで再現するのは非常に困難、あるいは不可能かもしれません。

AIは心臓がドキドキしたり、手のひらに汗をかいたり、叫んだりはしません。しかし、人間の恐怖と同様の効果を電子脳にエンコードし、システムに組み込まれる方法があるかもしれません。前述の研究者たちはこれを「内在的恐怖」と呼んでいます。

深層強化学習 (DRL) を使用して報酬を追いかけるように AI エージェントをプログラムすることで、適切な決定を下すように誘導できます。

この手法は、AIにゲームのプレイ方法を教える際によく用いられます。機械が良い動きをするたびに、高いスコアが報酬として与えられます。時間の経過とともに、機械はどの動きが報酬を最大化する可能性が高くなるかを学習し、パフォーマンスが向上します。

前述の研究者らが執筆した論文は、国際学習表現会議（ICLR 2017）で審査中[PDF]であり、DRLを根本から覆すことが可能であることを示しています。機械が正しい判断を下した場合に報酬を与えられるのであれば、誤った判断を下した場合にも罰を与えることができるのです。

私はAIの支配者を歓迎しません

論文の要約にもあるように、AI システムは、人命を奪ったり、修復不可能なほど物を壊してしまうようなミスを繰り返してしまう可能性がある。

深層強化学習を実社会で活用するには、壊滅的なミスを決して犯さないエージェントが期待されるかもしれません。少なくとも、エージェントが最終的には過去のミスを回避することを学習することを期待できます。

関数近似の使用により、これらのエージェントは、新たな方策の下では経験が極めて起こりにくくなるため、最終的には経験を忘却します。その結果、状態集約エージェントは訓練を続ける限り、定期的に壊滅的な誤りを再び経験する可能性があります。

この問題に対処するため、5人の専門家は「危険モデル」と呼ばれるものを提案しています。その目標は、エージェントがゲーム中に撃たれたり、崖から落ちたり、壁に衝突したりするなど、壊滅的な障害に陥る前に、自ら修正することで潜在的な危険を回避できるようにすることです。

危険モデルは、エージェントが一定数の動きで失敗に至る可能性を特定するように訓練された、独立したニューラルネットワークです。ゲームをプレイするにつれて、エージェントは経験に基づいて、どの動きがミスにつながるかを特定できるようになります。

エクス・マキナ。スクリーンショット

ロボットが殺人鬼に変身…映画「エクス・マキナ」より

これらの動きは「危険状態」とみなされ、システムの機能不全につながる可能性が高くなります。「内発的恐怖」は報酬関数における負の変数であり、危険状態に入るたびにその大きさが増大し、システムにペナルティを与えます。

危険モデルが成功するには、罰は正当なものでなければならない、と論文の共著者でカリフォルニア大学サンディエゴ校の研究者のザカリー・リプトン氏はThe Registerに語った。

リプトン氏はこれを、人間が恐怖症を発症する仕組みに例えています。「屋根の端に近づきすぎると、恐怖システムが作動し、落ちないように身を引こうとします。しかし、その恐怖があまりにも強く、いつまでも消えなければ、二度と屋根に足を踏み入れなくなるような、不合理な恐怖を抱くようになるかもしれません」と彼は言います。

危うい状況

システムに課せられる罰金が厳しすぎたり、危険モデルが危険状態を早期に検知し始めたりした場合、システムは過剰な不安とパニックに陥ります。エージェントは、何が大惨事につながるのか、何がそうでないのかを区別できなくなり、危険ではない状態を回避するようになります。

危険モデルの最終的な条件を決定するのは難しく、応用分野によって異なります。論文では、研究者たちはこのモデルを「アドベンチャー・シーカー」と「カート・ポール」という2つのゲームにのみ使用しています。

Adventure Seekerでは、エージェントは丘の頂上にいるスキーヤーです。より強いアドレナリンを求めて、落ちずにさらに高く登ろうとします。エージェントは、より高く登るためにスピードを加速するか、より低く登るためにスピードを落とすかを選択できます。あまりにも急激に高く登りすぎると、落ちてしまうというミスを犯してしまいます。
Cart-Poleも同様です。エージェントはカートの上でポールをバランスよく動かす必要があります。ポールが左または右に倒れたり、カートが画面の境界線から左または右に行き過ぎたりすると、最悪の事態が発生します。

恐怖度をどの程度にすべきかを決定するには、別個の危険モデルニューラルネットワークがゲームをプレイし、どのような大惨事が起こるかを認識してから、それを回避する方法を学習する必要があります。危険モデルからの知識は、エージェント（これもニューラルネットワーク）がゲームをプレイする前に提供されます。

刺さないで！

研究者たちはこれを、「ナイフを持って走り回っている子供を親が叱る」という考え方と比較しています。子供は実際に誰かを刺さなくても、自分の行動を調整することを学ぶことができます。危険モデルは、ナイフが危険であるという事前知識を持つ親のようなもので、エージェントは危険な状況に陥ったことで罰を受ける子供のようなものだとしています。

論文で例に挙げられているのと同様に不気味な状況は、ロボット理髪師です。ロボットは、より深剃りをすることで肯定的なフィードバックを得ることができ、この報酬によって刃を肌に近づけるようになります。刃が肌に近づくにつれて危険な領域に入り込み、危険状態を識別して、血まみれになるのを防ぐために刃を離す方法を学習しなければなりません。

エージェントが現実世界で行動を起こす前に、シミュレーション中に危険モデルを改良する必要がある。内発的恐怖が自動運転車の衝突防止に利用できるかどうかは、実世界でのテストがまだ行われていないため、まだ断言するには時期尚早である。

それまでは、すべてが楽しいゲームです。®

あなたを殺すかもしれないAIに最初に与える感情は何ですか？はい、恐怖です