研究:テキスト生成AIは人間のように書けるが、常識が欠けている

Table of Contents

研究:テキスト生成AIは人間のように書けるが、常識が欠けている

AI ソフトウェアは、文法的に正しく、非常に人間らしいテキストを生成できるかもしれませんが、常識に関しては、私たち人間に比べてまだ大きく遅れをとっています。

米国の南カリフォルニア大学(USC)、ワシントン大学、アレン人工知能研究所のコンピューター科学者チームは、機械学習システムにおける言語的推論能力を評価する新たなテストを考案した。単純な名詞と動詞のリストを与えられた自然言語処理モデルは、一般的なシナリオを説明する文を繋ぎ合わせるという課題を与えられた。

例えば、「犬」「フリスビー」「投げる」「キャッチする」という単語から、あるモデルは「2匹の犬が互いにフリスビーを投げ合っている」という文を生成しました。この文は筋道は通っていますが、人間が思いつくようなものではありません。犬がフリスビーで遊ぶというアイデア自体はそれほど突飛ではありませんが、人間が犬に何かを投げてキャッチさせるという方がより現実的です。

「実際、私たちの論文では、AIモデルの生成も文法的にほぼ正しいです」と南カリフォルニア大学の博士課程学生であるユーチェン・リン氏はThe Registerに語った。

「問題は妥当性の低さです。AI世代は日常生活において非常に珍しい、あるいはあり得ない存在です。例えば、「ゴミ箱はテーブルの下か上にある」はどちらも文法的には正しいのですが、常識的には「下」の方が適切です。」

AIドクター

研究者たちは実験としてOpenAI GPT-3医療チャットボットを作成した。このチャットボットは模擬患者に自殺を指示した。

続きを読む

研究者たちは、人間が生成した77,449文を用いて記述された35,141のシナリオからなるデータセットを構築し、これまでに8つの異なる言語モデルをテストしてきました。リーダーボードによると、シカゴ大学の研究者によって開発されたKG-BARTと呼ばれる最も優れたモデルの精度は32.7%で、GoogleのT5-Baseモデルの精度は22%でした。しかし、すべての機械学習システムの精度は、人間が一般的に63.5%の精度であったのに対し、人間はそれを下回りました。

「提案するタスクのモデルを評価するために、機械生成のための一般的な自動メトリクスであるBLEU、METEOR、CiDER、SPICEを使用します。これらのメトリクスは基本的に、モデル生成と多くの人々から収集した人間の参照との間のスコアを算出できるプログラムです」とリン氏は説明した。

「BLEUとMETEORは、単語の完全一致を重視する機械翻訳のタスク向けに設計されています。一方、CiDERとSPICEはストーリーテリング向けに設計されており、様々なシナリオに対応できるため、私たちのタスクにはより適しています。」

リン氏とその同僚は、AIモデルに常識がなければ、音声アシスタントやロボットなどのアプリケーションは人間との対話時にミスを犯しやすくなると示唆している。ニューラルネットワークは、学習用データセットの記憶に依存しており、現実世界の理解が不足しているため、推論能力を発達させることがしばしばできない。

「現在の機械によるテキスト生成モデルは、多くの人間にとって説得力のある記事を書くことができるが、基本的にはトレーニング段階で見たものを模倣しているだけだ」とリン氏は語った。

彼は、常識テストを開発することで、研究者が将来、より優れたアルゴリズムを構築できるようになることを期待しています。「機械に常識やその他の分野固有の知識を導入することで、映画『her/世界でひとつの彼女』のサマンサのように、自然な反応を示し、私たちの生活と交流するAIエージェントがいつの日か登場すると信じています」と彼は結論付けました。®

Discover More