科学者がナチスのAIを開発 – ちょっと待って、確認してみましょう… なるほど、文法ナチスですね

Table of Contents

科学者がナチスのAIを開発 – ちょっと待って、確認してみましょう… なるほど、文法ナチスですね

衒学者諸君、もし人工知能がオンラインフォーラムやソーシャルネットワークの投稿における文法の間違いを自動的に修正してくれたら、君たちの生活がどれほど楽になるか想像してみてくれ。

アポストロフィ、コンマ、ピリオド、感嘆符(! )の位置が間違っていたことで、もう二度とイライラしたり怒りを爆発させたりする必要はありませんこれらの欠陥は機械学習ソフトウェアによって修正され、あなたの心は安らぎます。

ソフトウェア?そう、米国カリフォルニア州ハーベイ・マッド大学の数学専攻、メンイー・シャンが開発したソフトウェアです。彼女はリカレントニューラルネットワークを訓練し、テキスト内の欠落した句読点を復元しました。現時点では、英語の句読点の中で最も一般的で簡単なコンマとピリオドしか処理できません。

「自動音声認識(ASR)などの自然言語処理の問題では、生成されるテキストには通常句読点がないため、それ以上の認識や分析が困難になります。そのため、句読点の復元は小さいながらも重要な問題であり、私たちの注意を払う価値があります」と彼女は先月説明した。

夏のプロジェクト

ボストンのベントレー大学で開催されたウルフラムサマースクールのプロジェクトで、シャンは50冊の小説とWikipediaのページから収集し、ベクトルに変換した300万語を使ってリカレントニューラルネットワークをトレーニングした。

テキストはフィルタリングされ、疑問符、感嘆符、コロンがピリオドに置き換えられました。その後、単語には、その単語の後にコンマが続くかピリオドが続くかを示すタグが付けられました。この情報は完全な文の形でシステムに入力され、モデルがコンマとピリオドが出現する一般的なパターンを識別できるようにトレーニングされました。

したがって、AI は、「but」という単語の後にはピリオドよりもコンマが続く可能性が高いこと、また、「the」などの単語は通常は文の冒頭に出てくるため、その後に句読点が続く可能性は低いことを認識するはずです。

ソフトウェアをデモンストレーションするには、文章のブロックをソフトウェアに入力します。このブロックはベクトルのシーケンスに変換され、ニューラル ネットワークに渡されます。ニューラル ネットワークは、必要と思われるピリオドとコンマを追加した同じ文章を出力します。

誰も完璧ではない

総合的な精度は、今回のケースではモデルのパフォーマンスを測る良い指標ではないと彼女は説明した。代わりに、システムの適合率と再現率の平均を取ったF1スコアの方が、より良いベンチマークとなる。

最高のF1スコアは70%前後で推移しており、実アプリケーションで使用するにはまだ不十分です。トレーニングデータセットの規模を拡大すれば、より高品質な素材と同様にスコアの向上が期待できます。

フェイスブック

Facebookが言語を発明するチャットボットの開発を中止?真実は?

続きを読む

Wikipediaのテキスト、特に学術的な引用文には、カンマが多すぎる場合があり、機械を混乱させ、過剰なカンマを挿入してしまうことがあります。興味深いことに、ニューラルネットワークはピリオドよりもカンマの処理が難しいと感じています。

「コンマの全体的なパフォーマンスはピリオドよりもわずかに劣っています。これは言語学の観点からも当然のことです」とシャンは説明した。

ピリオドについては言語学上、明確なルールがあるようですが、コンマの使い方は個人の文章スタイルによって大きく異なります。例えば、「私はリンゴが好きですが、バナナは好きではありません。」とも、「私はリンゴが好きですが、バナナは好きではありません。」とも言えます。

このように、非常に高い精度でコンマ予測モデルを構築するのは非常に困難です。しかし幸いなことに、コンマの有無が文全体の意味にそれほど影響を与えない場合もあります。そのため、コンマの精度が多少低下しても許容範囲です。

シャン氏はまた、句読点の復元はピリオドやコンマに限定されるべきではないとも付け加えた。

ここでコードを試してみることができます。®

Discover More