OpenAIとDeepMindが協力し、将来のAIマシンをより安全に

Table of Contents

OpenAIとDeepMindが協力し、将来のAIマシンをより安全に

OpenAIとDeepMindの研究者たちは、人間のフィードバックから学習する新しいアルゴリズムを使って人工知能をより安全なものにしたいと考えている。

両社は強化学習の専門家です。強化学習とは、与えられた環境下でエージェントがタスクを完了するために適切な行動をとった場合に報酬を与える機械学習の分野です。目標はアルゴリズムによって指定され、エージェントはゲームでポイントを獲得するのと同じように、報酬を追い求めるようにプログラムされます。

強化学習は、シミュレーションを通じて機械にDoomやPongのようなゲームのプレイ方法や自動運転車の運転方法を学習させることに成功しています。エージェントの行動を探索する強力な手法ですが、ハードコードされたアルゴリズムが間違っていたり、望ましくない効果を生み出したりすると危険な場合があります。

arXivに掲載された論文では、こうした問題を防ぐのに役立つ可能性のある新しい手法が紹介されています。まず、エージェントは環境内でランダムな行動を実行します。報酬は人間の判断に基づいて予測され、強化学習アルゴリズムにフィードバックされてエージェントの行動が変化します。

システムは人間の指示に従って最善の行動を導き出し、目標を学習する。

研究者たちは、この手法を、曲がった街灯柱のようなものにバック宙を教えるという課題に応用しました。エージェントの短い動画クリップ2本を人間に見せ、人間はどちらのエージェントがバック宙が得意かを判断します。

時間の経過とともに、エージェントは人間の判断を最もよく説明する報酬関数を絞り込み、目標を学習する方法を徐々に学習します。強化学習アルゴリズムがエージェントの行動を指示し、エージェントは人間の承認を求めて改善を続けます。

YouTubeビデオ

人間の評価者による評価には1時間もかかりませんでした。しかし、料理やメールの送信といったより複雑なタスクには、より多くの人間によるフィードバックが必要となり、費用がかさむ可能性があります。

論文の共著者でありOpenAIの研究者であるダリオ・アモデイ氏は、監督の軽減は将来の研究で重点的に取り組むべき潜在的な分野であると述べた。

「一般的に、半教師あり学習と呼ばれる手法がここで役立つ可能性があります。もう一つの可能​​性としては、言語など、より情報密度の高いフィードバック形式を提供したり、人間が画面上の良い行動を示す特定の部分を指さしたりすることです。より情報密度の高いフィードバックによって、人間はより短い時間でアルゴリズムに多くの情報を伝えることができるようになるかもしれません」と彼はThe Register紙に語った。

研究者たちは、このアルゴリズムを他のロボット工学のシミュレーションタスクやAtariゲームでテストし、その結果、機械が時として超人的なパフォーマンスを発揮できることが示された。しかし、それは人間の評価者の判断に大きく依存する。

「私たちのアルゴリズムのパフォーマンスは、どのような行動が正しく見えるかという人間の評価者の直感によってのみ左右されます。そのため、人間がタスクをしっかり把握していなければ、それほど役立つフィードバックを提供できない可能性があります」とOpenAIはブログ投稿に記している。

アモデイ氏は、現時点では結果は非常に単純な環境に限られていると述べた。しかし、運転、イベントの企画、執筆、技術サポートの提供など、報酬関数を定量化することが難しいため学習が難しいタスクにも役立つ可能性がある。®

Discover More