2016年。AI研究者たちは、ニュースを視聴させることでニューラルネットを訓練するのに最適な年を選んだ。

Table of Contents

2016年。AI研究者たちは、ニュースを視聴させることでニューラルネットを訓練するのに最適な年を選んだ。

オックスフォード大学とディープマインドの研究者らが開発した読唇ネットワーク「LipNet」は、プロの読唇師よりも優れたテレビ番組の読唇能力を備えている。

LipNetの最初の論文は現在、機械学習カンファレンスであるInternational Conference on Learning Representations(ICLR 2017)で審査中ですが、LipNetの精度を検証するために限られたデータセットを使用しているという批判を受けました。GRIDコーパスは、厳格な語順を持ち、それ自体では意味をなさない文で構成されています。

しかし、 arXivで公開された2番目の論文は、BBCニュース、クエスチョン・タイム、ブレックファスト、ニューズナイトUKのテレビ番組のスピーカーによる何時間にもわたる発話動作でシステムをテストしており、機械の優れた読唇能力をよりよく示している。

これは「オープンワールド問題」であり、文章の内容と長さに制約がなく、自然な人間の話し言葉を表します。

WLAS(Watch, Listen, Attend and Spell)ネットワークの単語正解率はLipNetの93.4%に対して46.8%と、LipNetよりも低い。しかし、WLASはより複雑で、より困難な課題に取り組んでいる。

これは、話している顔の口の動きに注目して話されている文字を予測する画像および音声エンコーダと、単語を綴る文字デコーダによって機能します。

研究者たちはテレビ番組をサンプリングし、視覚音声認識のためのリップリーディングセンテンス(LRS)データセットを作成しました。WLASネットワークは、10万以上の自然文と17,428語を含むLRSデータセットの音声動作を分析しました。

上段:BBCリップリーディングデータセットのオリジナル静止画像(左からニュース、クエスチョンタイム、ブレックファスト、ニュースナイト)。下段:2人の異なる話者の「午後」を表す口の動き。ネットワークは赤い四角で囲まれた領域を認識している。(写真提供:オックスフォード大学およびGoogle Deepmind)

WLASはLipNetと同様に依然として多くの学習を必要とし、WLASネットワークのテストにはLRSデータセットのごく一部しか使用されていません。17,428語のうち、6,882語がテストセットで使用されましたが、6,253語は学習と検証のプロセスを通じて既に使用されていました。

このモデルはゼロから学習されました。研究者がWLASネットワークを文章全体で学習させようとしたところ、学習速度が遅すぎて関連情報をすべて抽出することが困難だったため、文章を単語単位に分解する必要がありました。

機械は時間の経過とともにより多くの単語を学習し、徐々にそれらをつなぎ合わせてシーケンスを形成し、データセット内の文章を作成できるようになります。

読唇のみで判断した場合、WLASの単語誤り率は53.2%で、プロの読唇術師の73.8%を大幅に上回ります。読唇は同音異義語(発音は異なるが発音は同じに見える単語)があるため、難しい作業です。単語が「p」で始まるのか「b」で始まるのかを判断するのが難しい場合があります。

しかし、このシステムはノイズへの対応に苦労しており、音声クリップからの翻訳では単語エラー率が74.5%まで急上昇します。音声と読唇を合わせると、単語エラー率は50.8%まで低下します。

読唇ニューラルネットワークには多くの利点があります。研究者たちはより優れた補聴器の開発に関心を寄せていますが、CCTVカメラで秘密の会話を盗聴するなど、より悪質な用途にも利用される可能性があります。®

Discover More