AIは世界の指導者のビデオ演説の内容を置き換えることができる。これは良い結果をもたらすだろう。

ビデオ研究者たちは、誰かが話している音声録音と、その人が全く別のことを言っているビデオを合成し、置き換えた音声で説得力のある新しいリップシンクビデオを作成できるアルゴリズムを作成した。

つまり、結果として得られるビデオには、元の音声ではなく挿入された音声が含まれ、話者の顔や口の動きが新しい音声と一致するようにフレームが操作されます。

これを究極のフェイクニュース、つまり信憑性の高い偽造映像証拠を作り出すための重要な足がかりと捉えるのも無理はありません。重要人物がプライベートイベントで講演している映像を撮影し、前述のソフトウェアを使って全く新しい台本を吹き替え、熟練した物まねタレントやLyrebirdのような別のAIが音声を生成し、その偽の映像を配信するところを想像してみてください。

ありがたいことに、テクノロジーは今のところそのレベルには程遠いです。

以下のビデオは、この機械学習システムの現在の機能を示しています。バラク・オバマ氏へのインタビューから取得した音声が、同氏が話している別のクリップに挿入されているため、まるで同氏がまったく異なる環境で同じスピーチをしているように見えます。

YouTubeビデオ

偽のしゃべる顔を作るのは、非常に難しいプロセスです。まず、音声サンプルを採取し、リカレントニューラルネットワークに入力して口の輪郭を抽出します。次に、テクスチャを適用し、対象の動画にブレンドします。

できるだけ自然に見せるために、あごや口の動きに合わせてあごのラインを歪ませ、話しているときに見える自然なしわやえくぼを再現します。

シアトルのワシントン大学を拠点とする研究者らは、7月30日から8月3日までロサンゼルスで開催される今年の年次コンピュータグラフィックス会議であるSIGGRAPHで発表される論文で研究結果を発表した。

システムの仕組み（画像提供：Suwajanakorn他）

論文の共著者であり、ワシントン大学で最近博士号を取得したスパソーン・スワジャナコーン氏は、「人は口の中のどこかがリアルに見えないと特に敏感です。歯の描写が不自然だったり、顎の動きが不自然だったりすると、すぐに見破られてしまい、不自然な印象を受けてしまいます。ですから、不気味の谷を乗り越えるには、口の部分を完璧に描写する必要があるのです」と述べています。

この研究はサムスン、グーグル、フェイスブック、インテル、ワシントン大学アニメーション研究所から一部資金提供を受けた。

オンラインビデオチャットの接続がタイムアウトしてビデオが途切れてしまい、そのギャップを埋めるソフトウェアがあれば便利だろうというときに役立つことが期待されます。

「スカイプやGoogleハングアウトを視聴すると、接続が途切れ途切れで解像度が低く、非常に不快な場合が多いのですが、音声はなかなか良い場合が多いのです」と、論文の共著者でワシントン大学コンピュータサイエンス工学部の教授であるスティーブ・ザイツ氏は述べた。「ですから、音声を使ってはるかに高品質な動画を制作できれば素晴らしいでしょう。」

しかし、それが実現するまでには、まだしばらく時間がかかるかもしれません。様々な音声を基本的な口の形に変換するシステムを学習させるには、何時間にも及ぶ高画質映像（オバマ氏の場合は17時間、約200万フレーム）が必要です。

アルゴリズムがより少ないデータで人の声や話し方のパターンを認識できるようになれば、トレーニング時間を短縮できる可能性がある。

ニューラルネットワークは現時点では一人の人物にしか焦点を当てることができません。「誰かの声をそのままオバマ氏のビデオにすることはできません」とザイツ氏は言います。「私たちは、他人の言葉を誰かの口に当てるという手法は、意図的に避けることにしました。私たちは、実際に誰かが話した言葉を、その人物のリアルなビデオに作り変えているだけです。」

すべてが偽造できるAIの世界へようこそ

しかし、複数のツールを組み合わせれば、理論上は偽の言葉を他人の口に吹き込むことが可能です。AI音声合成を専門とするスタートアップ企業Lyrebirdは、入力されたテキストを他人の声で発声された音声クリップに変換する方法を既に実証しています。つまり、世界の指導者に望むことを何でも言わせることができるのです。

デモでは、バラク・オバマ、ドナルド・トランプ、ヒラリー・クリントンがライアーバードについて議論し、実際には言わなかった言葉を言う。

Lyrebirdの技術を使って作成された音声サンプルを、口の形を生成するアルゴリズムに入力できれば、動画全体を偽造できるかもしれません。微妙な顔の動きを正確に再現するのは難しいでしょうが、ご安心ください。そのための別のシステムがあります。

ドイツのエアランゲン・ニュルンベルク大学、ドイツのマックス・プランク情報科学研究所、米国のスタンフォード大学の研究者らは、顔の表情を再現し、それをリアルタイムで対象の動画にマッピングすることに成功した。

研究者らは、ターゲット（アーノルド・シュワルツェネッガーの顔）を操作してソース（アジア人女性）を模倣する方法を示している。

これらすべてのシステムを組み合わせる方法があれば、完全に偽の放送を作成できる可能性があります。

これはワシントン大学の研究者たちが考えてきた問題です。彼らはまた、このプロセスを逆転させる方法、つまり音声ではなく動画を入力として用いる方法も検討しており、動画が本物かどうかを判別するアルゴリズムを開発できるかどうかを検討しています。これは近い将来、必要になるかもしれない技術です。

今のところは、今月のG20サミットでのトランプ大統領とプーチン大統領の偽造写真の場合と同様に、ファクトチェッカーと鋭い目を持つネットユーザーに頼るしかないだろう。®

AIは世界の指導者のビデオ演説の内容を置き換えることができる。これは良い結果をもたらすだろう。

Table of Contents

すべてが偽造できるAIの世界へようこそ

Discover More

TSMCの2025年2nmチップタイムラインは、インテルの勢いが増していることを示唆している

Glusterの技術者が「オブジェクトストレージのMySQL」Minioプロジェクトを披露

元SAP CEOマクダーモット氏は、ドイツのERP大手のCEOとしての最後の年に1500万ユーロの利益を手にした。

Table of Contents

すべてが偽造できるAIの世界へようこそ

Smart Recommendations

Discover More