目に宿る真実:AIが操作した偽の「ディープフェイクス」動画が瞬きしない視線で見破られる

Table of Contents

目に宿る真実:AIが操作した偽の「ディープフェイクス」動画が瞬きしない視線で見破られる

過去1年ほど、ディープラーニングによる顔画像操作の産物であるディープフェイクと呼ばれる説得力のある偽動画が、民主主義、あるいは残された民主主義に対する脅威として非難されてきた。

懸念されるのは、捏造された出来事が、選挙結果を歪め、市民参加に影響を与えるようなフェイクニュースとなることです。著名な政治家が民主主義の規範を否定する動画が、どれほどの混乱を引き起こすか想像してみてください。しかも、それが現実を反映しているかどうかは誰にも分かりません。

ニューヨーク州立大学アルバニー校の研究者3人は、少なくとも現在のビデオ偽造技術の状況を考慮すると、ビデオに映っている人物がどのくらい頻繁に瞬きするかを測定するという答えがあると考えている。

最近プレプリントサーバーArXivを通じて公開された「In Ictu Oculi: 瞬きを検出してAIが生成した偽の顔動画を明らかにする」と題された学術論文の中で、Yuezun Li、Ming-Ching Chang、Siwei Lyuの3人が、偽の動画を検出するアプローチについて説明しています。

論文によれば、平均すると人は1分間に約17回、1秒間に約0.283回まばたきをし、この回数は会話中は増加し、読書中は減少するという。

現在のDeepFakeソフトウェアはこの点を考慮していません。

「AIが生成した顔にはまばたき機能が欠けている。ほとんどのトレーニングデータセットには目を閉じた顔が含まれていないからだ」と論文は述べている。「したがって、まばたきがないことは、ビデオレコーダーとは別のソースからビデオが取得されたことを示す明確な兆候である。」

まばたき検出技術の開発には、かなりの研究が行われていることが判明しました。これには、まぶたの垂直距離を計算して目の状態を推測したり、目のアスペクト比(EARという紛らわしい略語で表記されます)を測定したり、畳み込みニューラルネットワーク(CNN)分類器を用いて目の開閉状態を検出したりするといったことが含まれます。

監督

ニューヨーク州は「ディープフェイク」を禁止しようとしているが、ハリウッドは不満を抱いている

続きを読む

Li、Chang、Lyuは、眼の状態を評価するために長期回帰畳み込みネットワーク(LRCN)モデルを活用しています。顔の特徴を識別し、ビデオフレームの方向を正規化するための前処理を行った後、切り取った眼の画像をLRCNに渡して評価を行います。

彼らの手法は他の手法を凌駕しており、LRCNの精度は0.99であるのに対し、CNNは0.98、EARは0.79と報告されています。LRCNがCNNよりも優れているのは、CNNが計算において目の画像の過去の状態を考慮していない点です。

研究者たちは、まばたきの測定というこのアプローチが、偽動画の検出手段として有望であると主張している。しかし、熟練した偽動画制作者であれば、後処理、より優れたモデル、そしてより多くのトレーニングデータを用いることで、よりリアルなまばたきを再現できる可能性もあることを認めている。

長期的には、偽の動画を検出するには他の種類の生理学的信号も考慮する必要があるだろうと研究者らは示唆している。®

Discover More