Facebook の研究者たちは、テキストから推論できる機械の構築に取り組んできましたが、最新の論文では、真の機械知能の実現にはまだまだ長い道のりがあることが示されています。
いつかAIが超知能化して地球を支配し、人類を屈服させるという考えは、今まさに真剣な懸念材料となっている。HBOの『ウエストワールド』やイギリスのチャンネル4の『 Humans』といったSFテレビ番組で人気のテーマであるだけでなく、学術研究でも頻繁に取り上げられている。
オックスフォード大学の人類の未来研究所や、ケンブリッジに最近開設されたレヴァーヒューム知能の未来センターなどの研究センターは、AI開発の長期的なリスクの研究に特化しています。
AIに関する潜在的なリスクの鍵は、主にその知能に起因しています。2017年の国際学習表現会議(ICR)で現在審査中の論文では、知能を予測能力と定義しています。
「インテリジェントエージェントは、限られた知覚(視覚、聴覚、テキストなど)と過去の知識を組み合わせて、環境に関する観測されていない事実を予測できなければなりません。
「推論し、計画を立てるためには、観測された出来事や行動が世界の状態にどのような影響を与えるかを予測できなければなりません。世界の現状を常に予測し続ける能力と、世界がどのように進化していくかを予測する能力は、知的エージェントの重要な特徴と言えるでしょう。」
機械が何らかの出来事を予測したい場合、推論を学習する前に、まず周囲の状況を把握できなければなりません。これはFacebookが以前から関心を寄せてきた分野であり、同社のbAbIプロジェクトは「自動テキスト理解と推論という目標に向けて組織化されている」のです。
最新の試みでは、「リカレント・エンティティ・ネットワーク(EntNet)」と呼ばれる新しいモデルが用いられています。これは、並列動作するゲート付きメモリセルのように動作するように構築されたリカレント・ニューラルネットワークです。ゲートは、新しい情報を記憶し、推論中に呼び出すための鍵となります。
エージェントは一連のタスクでテストされます。まず、一連の文とイベントがテキストで与えられ、次に最終的な世界の状態を記述する一連の文が与えられます。そして、世界の状態を把握する能力をテストする質問が与えられます。
例えば、十分に訓練されたエージェントは、「メアリーはボールを拾いました。メアリーは庭に行きました。ボールはどこにありますか?」といった簡単な文章から質問を理解し、答えることができるはずです。エージェントは「庭」と返答するはずです。
印象的であるように思えますが、EntNet が実際にどのように機能するかを調べたときにのみわかる落とし穴があります。
機械はまだかなり愚かだ
ゲートネットワークはダイナミックメモリと呼ばれ、各ゲートはメモリセルのように動作します。メモリセル間には直接的な相互作用がないため、複数の同一プロセッサが並列に動作しているように見えます。
各セルには世界のエンティティが格納されます。この例では、メアリーまたはボールが該当します。エンティティの状態が変化すると、そのエンティティに関する新しい情報が適切なゲートに渡され、ゲートがロック解除されます。古い情報は、特定のエンティティに関する新しく更新された情報に書き換えられます。
これにより、エージェントは複数のエンティティを追跡し、他のエンティティに関する情報を消去することなく、関連するエンティティのみを更新することができます。エージェントは各エンティティを時間の経過とともに監視し、世界の状態を追跡することができます。特定のエンティティに関する質問を受けた場合、エージェントは特定のゲートに戻って情報を呼び出します。
EntNetの仕組みを示す図。各メモリスロットは、キーを使ってロック解除できる単語埋め込みに関する情報を保持するゲートであり、更新される。
重要なエンティティの特定
ここまでは順調です。EntNetは、どの情報が重要かを自由に判断し、エンティティを自らタグ付けできる場合、一般的にパフォーマンスが向上します。しかし、児童書テストのような複雑なデータセットを扱う必要がある場合は、エンティティを「事前知識」としてモデルに直接エンコードすることが不可欠です。つまり、AIが学習する際に、物語の中で何が重要かをAIに指摘する必要があるのです。
Facebookの研究者たちは、EntNetを書籍で学習させた後、その物語から抽出した21の文をブロック状にAIに入力しました。各ブロックの最初の20文はEntNetに文脈と構成を与え、最後の文から単語を1つ削除して質問文を作成します。AIは、この削除された単語を推測することが期待されます。
たとえば、ルイス・キャロルの『不思議の国のアリス』でソフトウェアをトレーニングした後、次の 20 行のコンテキストが AI に与えられました。
1 それで彼らは遠くまで落ちなければならなかったのです。
2 それで彼らは尾を口の中にしっかりとくわえました。
3 それで、彼らは再び彼らを連れ出すことができませんでした。
4 以上です。
5 「ありがとう」とアリスは言いました。「とても興味深いです。」
6 これまでホワイティングについてこれほど詳しく知りませんでした。」
7 「もしよければ、それ以上のことをお話しできますよ」とグリフォンは言いました。
8 「なぜホワイティングと呼ばれるのか知っていますか?」
9 「それについては考えたこともなかったわ」とアリスは言いました。
10 「なぜ?」
11 「ブーツと靴も」
12 グリフォンは非常に厳粛に答えました。
13 アリスはすっかり困惑しました。
14 「ブーツと靴は?」
15 彼女は不思議そうな口調で繰り返した。
16 「ところで、あなたの靴は何でできているのですか。」
17 とグリフォンは言いました。
18「つまり、何がそんなに光っているんですか?」
19 アリスは彼らを見下ろして、答える前に少し考えました。
20 「黒塗りは終わったと思うよ。」
そして最後の行が疑問です。
「海の底のブーツや靴はホワイティングで仕上げられています」と XXXXX は低い声で続けました。
うまくいけば、AIはXXXXXの正体であるグリフォンを答えてくれるでしょう。前述のように、児童書テストのような複雑な課題では、研究者は物語の中で重要になりそうな登場人物や物をリストアップすることでAIにヒントを与えました。bAbIセットのような非常にシンプルなデータセットでは、AIは何が重要で何がそうでないか、ほぼ自力で判断できます。
「もし第二の一連のステートメントが、世界の最終的な状態に関する質問の形で、その正しい答えとともに与えられた場合、エージェントはそれらから学ぶことができ、そのパフォーマンスは答えの正確さによって測定できるはずだ」と論文は述べている。
bAbIタスク(推論能力をテストする20の質問応答データセットのコレクション)は、研究者が最初にエンティティをエンコードせず、回答が与えられた唯一の演習でした。
エージェントはオブジェクトとキャラクターに関する情報をエンティティとして記憶スロットに正しく保存しましたが、bAbIタスクは単純です。文は4~5語程度の長さで、すべて同じ構造をしており、キャラクターの名前が最初に来て、その後にアクションとオブジェクトが続きます。
EntNet は、機械が自動推論を開発するには程遠く、まだ世界を制覇できないことを示していますが、ニューラル ネットワークにメモリを導入する非常に気の利いた方法です。
アクセスおよび更新可能な情報をゲートに保存すると、DeepMind の微分可能ニューラル コンピュータとは異なり、研究者は外部メモリを接続する必要がありません。®