偽の画像や動画を生成できるAIシステムの台頭により、米国の研究者は、ディープフェイクとも呼ばれるこうしたサイバー偽物を見抜く技術の開発に躍起になっている。
敵対的生成ネットワーク(GAN)は、クリエイティブな用途に広く利用されています。これらのニューラルネットワークは、学習用データが不足している状況で、研究者が人工知能ソフトウェアを学習させるための架空データを作成するのに役立っており、アーティストの肖像画制作にも役立っています。
しかし、テクノロジー関連のあらゆるものと同様に、悪意のある側面も存在します。この技術は悪意のある人物によって悪用され、女優、元恋人、政治家、その他の被害者の顔をポルノスターの体に貼り付けるという行為が横行しています。その結果、まるでアダルト行為を行っているかのような、かなりリアルなコンピューター生成動画が生まれます。特にAIが生成した偽の音声と組み合わせると、偽造ポルノの域を超え、偽造インタビューや自白の域に達するのではないかと懸念されています。
現在、ニューヨーク州立大学アルバニー校の博士課程学生ユエズン・リー氏とコンピューターサイエンス准教授シウェイ・リュ氏は、オープンソースのディープフェイク・フェイススワップ・アルゴリズムによって作成されたものなどのディープフェイク動画を識別する技術を考案した。
ディープフェイクは、今のところ人間が見分けるのはそれほど難しくありません。加工された動画は不気味で、表情は自然ではなく、動きもかなりラグや不具合があります。また、元の素材よりも解像度が低いため、数秒も経てば騙されていることに気づくはずです。しかし、技術が進歩するにつれて、機械がこうした偽造の特徴を学習し、将来的には気づかない人々に警告を発できるようになると良いでしょう。
ディープフェイクの検出
コンピューターにこの作業をさせようとするこれまでの試みでは、動画内での人物の瞬きの仕方などから不正行為の兆候を探していました。そのため、検出プロセスで使用される他のニューラルネットワークシステムを学習させるために、まずGANでディープフェイクを生成することが必要になる場合が多かったのです。
しかし、Li氏とLyu氏の手法はGANに依存しないため、時間と計算負荷が少なくて済みます。まず、彼らは従来のコンピュータービジョン技術を用いて、24,442枚のトレーニング画像から顔を検出し、顔の特徴点を抽出しました。
次に、ディープフェイク動画でよく見られる不気味な効果を模倣するために、画像の顔の特徴を歪ませたりねじったりしました。最後に、本物の画像と変形された画像を用いて畳み込みニューラルネットワーク(CNN)を学習させ、少なくともシーンが本物である確率を検出できる分類器を開発しました。学習後、動画のスクリーンショットをこれらのネットワークに入力すると、画像内の顔が本物か加工されたものかが示されました。
「私たちの方法は、現在のディープフェイクアルゴリズムでは解像度が限られた画像しか生成できず、ソース動画の元の顔と一致させるにはさらに加工する必要があるという観察に基づいています」と、研究チームは今月発表した論文で説明している。
「このような変換により、結果として得られるディープフェイク動画には特徴的なアーティファクトが残りますが、畳み込みニューラルネットワークによって効果的に捕捉できることが示されています。」
2人は前述の手法を4つの異なるCNNに適用しました。トレーニングセットには、実際の動画49本とDeepFakeで生成された動画49本が含まれていました。各動画には1人の被写体が登場し、長さは約11秒でした。合計32,752フレームでした。
目には見えない!AIの「ディープフェイク」動画がリアリティで躍進
続きを読む
英国オックスフォード大学の研究者らが開発した古いCNNシステムであるVGG16は、ディープフェイク画像の検出において、マイクロソフトの研究者らが構築したより人気の高いCNNであるResNet50(97.4%)と比較して、最も低い精度(83.3%)を示した。
マイクロソフトのResNet101やResNet152などの他の亜種は、それぞれ2位(95.4%)と3位(93.8%)となった。ディープフェイク動画全体では、ResNet101が最も優れており(99.1%)、次いでResNet50(98.7%)、ResNet152(97.8%)、VGG16が最下位(84.5%)となった。
有望ではあるものの、研究者たちは、厳選されたDeepFakeデータセット以外では、ディープフェイク動画や画像に関する有意義な結果をまだ報告していません。つまり、現実世界の偽造品を用いたさらなるテストが必要なのです。さらに、GANと偽コンテンツの品質が向上するにつれて、この手法を用いた偽造品の検出はより困難になると考えられます。
「ディープフェイクの技術は進化し続けているので、検出方法も改善を続けていきます」と研究者らは述べた。「まず、複数の動画圧縮に対する検出方法の堅牢性を評価し、改善していきたいと考えています。」
「第二に、現在、このタスクには事前に設計されたネットワーク構造(resnetやVGGなど)を使用していますが、より効率的な検出のために、DeepFake動画の検出専用のネットワーク構造を検討したいと考えています。」®