私はBigGANが好きですが、彼らの写真は嘘をついています。他のAIはそれを否定できません

Table of Contents

私はBigGANが好きですが、彼らの写真は嘘をついています。他のAIはそれを否定できません

AI によって生成された画像は、人間の目には少し奇妙に見えるため、これまでも簡単に見分けることができましたが、本物と偽物の区別が難しくなってきています。

DeepMindと英国ヘリオット・ワット大学の研究者らは、BigGANと名付けた機械学習モデルのサイズを拡大することで、生成的敵対的ネットワーク(GAN)によってシミュレートされた画像の品質を大幅に向上させることに成功した。

垂れ耳の茶色の犬、島の風景、蝶、チーズバーガーの写真など、最高の結果は、一見すると本物の写真のように見えます。

ビッグガン

画像クレジット: Brock et al.

しかし、じっと見つめ続けると、わずかな矛盾に気づき始めるでしょう。犬の目はうつろで、蝶の羽には属さない奇妙な部分があります。先週末にarXivで公開された結果によると、これらは依然としてGANによって生成された最高の画像です。

GANは、互いに作用し合う2つの独立したニューラルネットワークで構成されています。生成器ネットワークは画像を生成し、識別器ネットワークは画像が本物か偽物かを判断します。学習プロセスにおいて、生成器ネットワークは識別器ネットワークを迂回するより良い画像を生成するために、処理を微調整する方法を学習します。

より現実的な結果を得るための秘訣は、あらゆるものをより大きくすることです。「GANはスケーリングによって劇的な恩恵を受けることを実証し、先行技術と比較して2~4倍のパラメータと8倍のバッチサイズでモデルを訓練しました」と論文は述べています。

ショックを受けたテレビ

目には見えない!AIの「ディープフェイク」動画がリアリティで躍進

続きを読む

BigGANは、画像分類タスクでよく使われるImageNetデータセットを用いて学習されています。ImageNetには、様々な物体の画像が何百万枚も含まれています。最もパフォーマンスが高いのは、バッチサイズが2,048のデータセットです。これは、学習の反復ごとにデータセットからその枚数の画像を読み込むことを意味します。ニューラルネットワークは、データセット全体を複数回処理するために、多くの学習サイクルを経ます。

また、このモデルには 1 億 5,800 万を超えるパラメータ(トレーニング プロセス中に学習できる画像を記述するプロパティ)があり、約 1 ~ 2 日でモデルをトレーニングするには 128 個の Google TPU3 ポッドが必要でした。

研究者が「切り捨てトリック」と呼ぶもう1つの手法は、ジェネレーターにトレーニングデータセットにより類似した画像を作成するように強制し、よりリアルなものにする。

「発電機の出力は、入力の変動性によって制御されます。私たちの技術は、入力の変動性を低減することで、出力の変動性を低減し、品質を向上させます」と、ヘリオット・ワット大学エディンバラ・ロボティクス・センターの博士課程学生、アンドリュー・ブロック氏はThe Register紙に語った。

AIを用いて、ますますリアルな偽コンテンツを作成することが懸念を引き起こしています。GANを用いて他人の顔を模倣した画像を作成する事例は数多くあります。バラク・オバマやドナルド・トランプといった政治家の写真は、実際には言っていないことを言わせるために加工されています。インターネット上の変質者たちも同様の技術を使って、お気に入りの女優の顔をポルノ俳優の体に貼り付けたこともあります。

ブロック氏はEl Regに対し、GANが悪意を持って利用される可能性についても懸念していると語った。「顔ではなく、より一般的な画像モデリングに焦点を当てた理由の一つは、ドッグボールの画像を政治的または非倫理的な目的で使用するのは、他人の画像を使用するよりもはるかに難しいからです。」

ドッグボール

ドッグボール!犬とテニスボールを掛け合わせたようなデザイン。画像提供:Brock et al.

GAN は開発者がアートを作成するのに役立っており、実用的な重要性はあまりないように思えるかもしれませんが、研究するのは興味深いものです。

「説得力のあるサンプルを生成できるニューラルネットワークは、私たちの複雑な視覚世界の根底にある豊かな構造を学習しなければなりません。何かを描くためには、それを『理解』しなければなりません。もしそれを完全に理解するモデルを構築できれば、学習した表現を使って多くの興味深いことが可能になります」と彼は付け加えた。®

Discover More