Wikipedia は、無料で編集可能なオンライン百科事典を最新の状態に保ち、スパムがなく合法的な状態に保つという膨大な作業に人工知能を導入する予定です。
客観的修正評価サービスは、テキスト処理AIアルゴリズムを用いて最近の編集内容をスキャンし、スパム、荒らし行為、リバート合戦(編集が何度も繰り返され、元に戻される行為)、その他疑わしい要素がないか確認します。しかし、人間は文章のニュアンスを読み取るのが得意です。コンピューターにも同じことができるのでしょうか?
自然言語処理はAIの一分野であり、賢いコンピュータを作ることではなく、テキストを知的に理解することに重点を置いています。その目的は、コンピュータが人間の言語を理解し、人間と同じようにコミュニケーションできるようにすることです。
言語を知的に理解するということは、様々な意味を持つかもしれません。例えば、言語の文法を理解することかもしれません。コンピュータがこれを実現するには、言語の内部規則をコンピュータが理解できる形で形式化する必要があります。文法は規則の集合であり、機械は規則処理が得意なので、これはそれほど難しいことではありません。しかし、日常会話では状況ははるかに困難になります。日常会話には、「えーっと、今日は…えーっと…しようと思っていたんだけど…」といった未完の、あるいは文法的に正しくない発話や、「あは」「えー」「ああ」「わあ」といった雑音が含まれます。これらは無意味であっても、人間の聞き手にとっては意味を成すことがあります。
言語を理解するということは、小説、戯曲、ニュース記事など、人間のように文章を生成できることも意味するかもしれません。ディープラーニングは、入力データと言語的に類似した文章を生成するアルゴリズムの学習に利用されてきました。面白い例としては、欽定訳聖書風の文章を生成するアルゴリズムがあります。また、気温や風速の情報に基づいた天気予報など、事実に基づいた物語を作成することも挙げられます。
言語を理解するということは、要約、分類、言い換えなど、人間と同じようにテキストを処理できることも意味するかもしれません。これはまさにWikipediaのロボット編集者が行っていることで、編集内容を「本物」と「偽物」、「正しい」と「間違っている」、許容できる「許容できない」に分類しています。
手作業によるアルゴリズムの給餌
これらのタスクを適切に実行するには、AIは単語やフレーズなどの記号に意味を割り当てる方法を学習する必要があります。これは非常に困難なタスクです。特に、人間がどのようにそれを行うのかさえ分かっていないからです。たとえ分かっていたとしても、脳の構造は非常に複雑なため、コンピューターで実装するのはさらに困難でしょう。
例えば、研究によると、トリップアドバイザーに投稿された虚偽のレビューを見分ける能力は、人間には偶然と変わらないことが明らかになっています。しかし、コンピューターは虚偽のレビューを90%の確率で正しく見分けました。しかし、この結果は、人間の専門家が十分な「ゴールドスタンダード」となる資料、つまり人間が書いた真実の意見と虚偽の意見を生成したことに起因しています。そこで課題となるのは、このトレーニングデータを入手することです。しかし、Wikipediaにおける作業の性質上、真正で信頼できるデータが十分に入手できないのです。
良質なデータが大量に存在しない場合、AIは良質なものとそうでないものを見分けるのに使える言語的特徴を手動で入力することで学習させる必要があります。欺瞞に関する心理言語学的研究では、嘘つきが使いがちな言葉の種類が明らかになっています。例えば、ある研究では「なぜなら」「影響」「いいえ」「決して」といった原因を表す言葉や否定形が少ないことが分かりました。また別の研究では、嘘つきは一人称代名詞(私、私、私のもの)の使用を避け、三人称代名詞(彼、彼女、彼ら)を多く使うことが分かりました。
問題は、適用可能な言語的特徴が膨大にあり、それら全てを備えているかどうかを知る術がないことです。実際、新たな研究によって、識別可能な言語的特徴の新たな種類が次々と明らかにされています。そして、本物のテキストの中にもこれらの特徴が含まれている可能性があります。ロボット編集者は、Wikipediaへの悪意のある編集の特徴を見極める必要があります。
しかし、機械は構文(規則とプロセス)と語彙(単語の目録)の学習は得意ですが、意味、つまり「セマンティクス」をモデル化するのはそれほど得意ではありません。ロボット編集者は、悪意のある文章として学習した特徴のリストに当てはまらない、悪意のあるWikipediaの編集をどう処理するのでしょうか?コンピューターは、慣用句、皮肉、隠喩、直喩といった複雑な表現をどのように理解できるのでしょうか?これらの特徴を含む不適切な編集をアルゴリズムで理解したり、それらを含む有効な編集と区別したりすることは非常に困難です。
こうした課題にもかかわらず、自然言語処理は言語を理解し、言語タスクを自動実行する能力をますます向上させています。これは、翻訳やインテリジェント検索エンジンの驚異的な進歩に表れています。これらの検索エンジンは、入力内容だけでなく、ユーザーの意図を理解するようになっています。十分なデータと、さらにデータを作成するための手段があれば、AIは人間の子供と同じように、徐々に訓練され、人間の言語のあらゆる側面を学習できるようになります。
メアヌーシュ・サドゥザデ、ロンドン・クイーン・メアリー大学講師、EPSRCキャリア加速フェロー
この記事はThe Conversationに掲載されたものです。元の記事はこちらです。