研究者が顔認識にニューラルネットワークを使用する方法から読唇術を使用する方法へと移行するにつれ、AI 監視は今後さらに進歩する可能性があります。
オックスフォード大学、Google DeepMind、カナダ高等研究機構の研究者らが提出した論文が、機械学習の学術会議ICLR 2017(Conference on Learning Representations)に提出され、審査中となっている。論文では「LipNet」と呼ばれるニューラルネットワークについて説明されている。
LipNetは、ビデオで話している人の「時空間視覚的特徴」を分析することで、話された言葉を93.4%の精度で解読することができ、プロの人間の読唇術師を上回っています。
研究者らは、これは単純な単語分類を超えて文レベルのシーケンス予測を使用する初のモデルだと主張している。
読唇術は難聴者にとっても難しい作業であり、平均正確率は 52.3 パーセントです。
「機械によるリップリーダーは、改良型補聴器、公共の場での静かなディクテーション、秘密の会話、騒がしい環境での音声認識、生体認証、無声映画の処理などに応用でき、実用上大きな可能性を秘めている」と論文は述べている。
しかし、CCTV カメラが秘密の会話を読み取ってしまうことを恐れている人は、自分の身元を隠すことができる、ピクセルを歪める風変わりなメガネをまだ捨てないでください。
論文を詳しく見ると、この印象的な精度率は、以下のビデオで使用されている例のように、多くの場合意味をなさない単語をつなぎ合わせて文章を構成している限られたデータセットのみをカバーしていることがわかります。
YouTubeビデオ
GRIDコーパスは、34人の話者がそれぞれ1,000文を話す音声と動画の録音集です。これらの文はすべて、以下の「単純文法」の構造を持っています:命令(4) + 色(4) + 前置詞(4) + 文字(25) + 数字(10) + 副詞(4)。
括弧内の数字は各カテゴリーの単語の選択肢の数を示しており、発話可能な文は64,000通りあります。GRIDコーパスでは多くのファイルが欠落または破損していたため、13人の話者による32,839本の動画が残りました。
LipNetがこれほど高い精度を実現するには、多くのトレーニングが必要です。動画の総数のうち、約88%がトレーニングに、12%がテストに使用されました。LipNetは、話者が話しているときに口が作る様々な形に注目し、それを画像フレームに分解します。
これらはニューラル ネットワークに入力として送られ、いくつかのレイヤーを通過して口の動きを音素にマッピングし、単語や文章を音声的に解釈します。
LipNet によるフレームの音素と単語へのマッピング (写真提供: Assael 他)
LipNetが2人の間で実際に行われる普通の会話を処理できるようになるまでには、まだ長い道のりがあります。アクセントや異なる言語に対応するには、システムのトレーニングにさらに多くのデータが必要になるでしょう。
それでも、カメラがあなたのささやき声を解読することを心配しているなら、マスクを着用したほうがいいかもしれません。®