うわあ!また不気味な偽のしゃべる顔を作るAIが出てきた

Table of Contents

うわあ!また不気味な偽のしゃべる顔を作るAIが出てきた

ビデオ機械学習の専門家は、ビデオ内の顔の動きを操作して、実際には言っていないことを言っているように見せる偽の映像を作成できるニューラル ネットワークを構築しました。

これは、金持ちや権力者だけでなく、平均的な凡人によって発せられたように見える、説得力があるが偽りの発表や告白を作成するために使用され、新しい種類のフェイクニュースが生み出され、私たち全員を現実からさらに切り離すことになります...もちろん、それが十分に機能すれば。

これは、有名な女優やモデルの顔を、わいせつな成人向け映画スターの体に不自然に重ね合わせたディープフェイクとはまったく異なります。

しかし、この最新のAI技術は、顔を別の身体にマッピングするのではなく、対象の顔を制御し、ソースの頭の動きや表情を模倣するように操作します。ある例では、バラク・オバマ大統領がソース、ウラジーミル・プーチン大統領がターゲットとなっています。そのため、オバマ大統領の演説がプーチン大統領の演説であるかのように聞こえます。

オバマ・プーチンAI

オバマ大統領の表情は、最新のAI技術を使ってプーチン大統領の顔にマッピングされています...画像提供:Hyeongwoo Kim他

先月末にインターネット上に現れたこの手法を解説した論文では、現実的な結果が得られると主張している。この手法は、キム・ヒョンウ、パブロ・ガリド、アユシュ・テワリ、ウェイペン・シュー、ユストゥス・ティエス、マティアス・ニースナー、パトリック・ペレス、クリスチャン・リヒャルト、ミヒャエル・ゾルヘーファー、クリスチャン・テオバルトによって開発された。

ディープフェイクに関するRedditフォーラム(現在は閉鎖)には、機械学習ソフトウェアを使ってポルノ女優の顔にセレブのぼやけた、震える顔を貼り付けた、悲惨なほど粗悪なコンピューター生成動画が投稿され、眉毛が不揃いで動きがぎこちない動画が投稿されていました。数秒後には、基本的に偽物だとわかるほどでした。

以前行われた同様のプロジェクトでは、リップシンクと音声クリップを用いて、実際には言っていないことを言っているふりをする人物の動画を作成しました。今回も研究者たちはバラク・オバマ氏を例に挙げました。しかし、唇の動きが必ずしも正確に一致しなかったため、結果は完全に説得力のあるものではありませんでした。

しかし、この新しいアプローチでは、その問題はそれほど問題ではありません。論文によると、このモデルは、ソースから取得した頭部の位置、頭部の回転、表情、視線、まばたきといった3次元的な情報を、対象のポートレート動画に完全に転送できる初のモデルだと言われています。

ターゲットヘッドの制御

一連のランドマークを用いて顔を再構成することで、頭部と顔の動きを追跡し、入力ソースビデオと出力ターゲットビデオの各フレームにおける顔の表情を捉えます。顔表現手法により、両方のビデオの顔のパラメータを計算します。

次に、これらのパラメータをわずかに変更し、ソースの顔からターゲットの顔にコピーして、リアルなマッピングを実現します。ターゲットの顔の合成画像は、Nvidia GeForce GTX Titan X GPUを使用してレンダリングされます。

レンダリング部分では、生成的敵対的ネットワーク(GAN)が登場します。トレーニングデータは、対象動画シーケンスの追跡された動画フレームから取得されます。目標は、対象動画フレーム内の画像と同等の精度で、識別ネットワークを欺く偽画像を生成することです。

ネットワークを学習させるには、約2000フレーム(1分間の映像に相当)しかありません。現時点では、リアルに修正できるのは顔の表情のみです。上半身はコピーできず、変化の激しい背景にも対応できません。

専門家は以前にも、この技術をめぐる倫理的問題を提起してきました。「悪意のあるAI」に関する報告書は、人々に虚偽の情報を信じ込ませるための偽動画に焦点を当てており、政治的安全保障を脅かす可能性があります。

論文ではこれらの懸念についてはあまり触れられていない。しかし、この技術の限界を押し広げ、民主化を進めるには、「例えば目に見えない透かしを入れるなど、検証可能な動画の真正性を確保するための更なる配慮が必要となる」と述べている。

服を脱ぎ始める女性

参考までに:有名人の顔を使って本物そっくりな偽のポルノ動画を生成するAIアプリが登場

続きを読む

論文の共著者であり、ドイツのミュンヘン工科大学の博士研究員であるユストゥス・ティース氏は、AIを使って偽のビデオを操作することの潜在的な危険性を認識しているとThe Registerに語った。

「こうした再現プロジェクトの倫理的な意味合いについては承知している」と彼は語った。

それが、私たちが研究結果を公表した理由でもあります。人々に操作技術の可能性を知ってもらうことが重要だと考えています。

「顔の再現には多くの有用な用途があります。顕著な例としては、映画の吹き替えやポストプロダクション全般が挙げられます。ほとんどの操作手法の根底にある原理は、かなり古いものです。映画業界では数十年にわたり『特殊効果』が用いられてきましたが、同様の技術が偽造に利用できるとは誰も気づいていません。」

これは、米国の軍事研究機関である国防高等研究計画局(DARPA)が取り組んでいる問題です。同局は、メディアフォレンジック(MediFor)プラットフォームに資金を提供しています。このプラットフォームは、「不正操作を自動的に検出し、不正操作がどのように行われたかについての詳細な情報を提供し、映像メディア全体の整合性を推論することで、疑わしい画像や動画の使用に関する判断を容易にする」ものです。

実際、Theis 氏は DARPA の MediFor 活動から資金提供を受けているプロジェクト、FaceForensics に関わっています。

「最近発表されたシステムは、高度な不正検出と透かしアルゴリズムの必要性を示しています。デジタルフォレンジックの分野は今後大きな注目を集めるだろうと確信しています」と、論文の共著者であり、米国スタンフォード大学の客員助教授であるマイケル・ゾルホファー氏はEl Reg紙に語った。

偽造品の検出を目的とした研究プロジェクトへの資金提供は、良い第一歩だと考えています。個人的な意見としては、最も重要なのは、一般の人々が、動画の生成と編集における最新技術の能力を認識することです。これにより、人々は日々視聴する動画コンテンツについて、特に出所の証明がない場合には、より批判的に考えるようになるでしょう。

この研究は、8月にバンクーバーで開催される年次コンピュータグラフィックスカンファレンス「SIGGRAPH」に提出されました。より多くの例を紹介するビデオはこちらです。

YouTubeビデオ

社会はすでにフェイクニュースの蔓延に悩まされており、説得力のあるフィクションと真実を区別するのに苦労しているため、近い将来に状況が改善することは期待できません。®

Discover More