ディープフェイク3.0(ベータ版)、悪い知らせ:このAIはあなたの写真1枚をしゃべる顔に変えることができる。良い知らせ:

Table of Contents

ディープフェイク3.0(ベータ版)、悪い知らせ:このAIはあなたの写真1枚をしゃべる顔に変えることができる。良い知らせ:

動画:肖像画などの生気のない静止画を、動く顔に変えることができる人工知能ソフトウェアを覚えていますか?今では、AIアルゴリズムを使って、人物の写真や画像を1枚撮影し、特定の言葉や文章を言わせるアニメーションを作成できるようになりました。

この機械学習コードは、人の口の動きを音声トラックにリップシンクさせ、与えられた音声トラックに合わせることができます。これにより、被験者は与えられた録音を事実上、実際には発していない言葉を喋るように強制されます。これを悪用して観客を騙す方法は無限にあります。

この新たな展開は、先行研究と同様に、ディープフェイクをめぐる激しい論争に拍車をかけている。ディープフェイクとは、画像、動画、音声など、機械学習アルゴリズムによって改ざん、歪曲されたコンテンツを指す用語である。

モナ・リザの肖像画や、マリリン・モンローのような亡くなった有名人の写真が、ニューラルネットワークとコードの冷たく湿った手によって突然生き返ったことに、インターネットは大騒ぎになった。目は瞬きし、口は動いたが、声は出なかった。

現在、サムスンAIセンターと英国のインペリアル・カレッジ・ロンドンの研究者たちは、さらに一歩進んで、実際に話すことができる偽の話し手を作り出しました。以下で、アインシュタインが科学の驚異について語る様子をお聞きください。確かに顔も声も彼のものですが、それでも偽物であり、明らかに偽物です。

YouTubeビデオ

音声はE-mc 2のスーパーボフィンによるスピーチの録音から、顔は写真から取られています。さらに明らかに偽物なのが、ポップスター、ビヨンセの大ヒット曲「Halo」を歌っているグリゴリー・ラスプーチンの写真です…

YouTubeビデオ

画像はかなり粗く、明らかに何らかの加工が施されており、面白みがあるので真剣に受け止めるほどではありません。しかし、この種の技術が潜在的に危険である理由を示す別の動画をご紹介します。

YouTubeビデオ

あなたや私のような普通の人でも、視覚的に操作される可能性があり、その操作が必ずしも明らかであるとは限りません。上の動画では、AIソフトウェアによって人々の顔がアニメーション化され、「11時です」「会議に向かっています」といった中立的な文章を、喜び、悲しみ、恐怖など、様々な表情で繰り返しています。

現時点では、初期の学術研究の結果として制作されたこれらのビデオは、技術的な観点からは印象的ですが、最終的には必ずしも完全に説得力があるわけではありません。

しかし、コンピューターで作成された偽のビデオが、十分な数の国民を騙して偽のニュースを広めたり、証拠を改ざんして無実の罪で人を陥れたりするほど巧妙に作られ、しかもボタンを数回押すだけですべて自動的に行われる未来を想像してみてください。

ジェネレータとディスクリミネータ

既に述べたように、今月発表されたチームのarXiv論文で説明されている技術の出力はまだ完全に納得できるものではありません。結果として得られた動画は画質が低く、実際の人間が雑談しているときに鼻や唇の周りにできる小さなしわなど、顔の細かい動きや特徴が欠けています。目も精彩に欠けています。

しかし、このモデルがたった1つの入力画像と音声ファイルからトーキングヘッドを作成できることを考えると、現段階ではそれほど悪くないと言えるでしょう。研究者たちは、1つの生成器と3つの識別器ネットワークを備えた生成的敵対的ネットワーク(GAN)上にこのソフトウェアを構築しました。このアプローチでは、生成器と3つの識別器が対戦します。生成器は、入力画像と音声から、識別器を通過するのに十分な説得力のある素材のストリームを生成する必要があります。

そのため、論文によると、識別器は「同期性や自然な表情の有無に基づいて」本物の動画と偽物の動画を区別できるように学習させる必要があった。モデルの学習には、4つのデータセットから抽出した合計164,109個のサンプルが使用され、テストには17,753個のクリップが使用された。

ディープフェイクネットワーク

モデル内のさまざまなコンポーネントの図...画像提供: Vougioukas 他

学習中、ジェネレータは静止画と音声クリップを取り込み、これら2つのソースから入力スナップから派生した一連のフレームを出力しました。各フレームは入力音声の0.2秒の断片に対応しています。各フレームでは、関連する短い音声サンプルに合わせて口と顔がわずかに変更されています。

これらのフレームは2つの識別器に渡され、音声と唇の動きが一致しているかどうかが確認されました。一致していない場合、ストリームは偽物または非現実的として拒否され、ジェネレーターにフィードバックが送られ、改善が促されます。3つ目のシーケンス識別器は、ビデオ全体を見て、各フレーム間の遷移がスムーズで、生成されたクリップがリアルに見えるかどうかを確認します。一致していない場合、クリップは拒否され、ジェネレーターに通知されます。

トレーニングが完了すると、GAN はあらゆる入力画像と音声を取得し、それらをディープフェイクのトーキングヘッド ビデオに同期できるようになります。

ジェネレータに入力された静止画像と音声は、2つの独立した畳み込みニューラルネットワークによってエンコードされました。さらに、まばたきなどの顔の動きを含むフィラーフレームを生成するためのノイズジェネレータもミックスに組み込まれていました。

「私たちのモデルはPyTorchで実装されており、Nvidia GeForce GTX 1080 Ti GPU 1基で約1週間かけて学習します」と研究者らは論文に記している。話し手のフェイククリップはリアルタイムで作成可能で、GTX 1080 Ti GPUを使用すれば約75フレームの動画をわずか0.5秒で生成できる。ただし、CPUを使用する場合はもっと時間がかかる。

研究者らは66人に24本の動画(12本は本物、12本はディープフェイク)を視聴してもらったところ、本物か偽物かを正しく判断できたのは全体の約52%にとどまった。「このモデルは、話者の口調を反映した表情を生成する、リアルな動画を生成するという点で有望な結果を示した。チューリングテストにおいて、ユーザーが合成動画と本物を区別できなかったことは、生成された動画が自然に見えることを証明している」と研究者らは結論付けている。

彼らは将来、よりリアルな動きを実現することで、より説得力のある結果を目指しています。例えば、現時点では、偽のトーキングヘッドは頭をあまり動かすことができません。®

Discover More