AIシステムがこれまでで最もリアルな写真を作成した

Table of Contents

AIシステムがこれまでで最もリアルな写真を作成した

AI システムは、写真のように非常にリアルな人間の画像を作成できるようになりました。ただし、画像に写っている人物は実際には存在しません。

ぜひご自身でご覧ください。以下の画像は、生成的敵対的ネットワーク(GAN)によって生成された出力です。GANは、生成器と識別器を含む2つの異なるネットワークで構成されるシステムです。開発者はGANを用いて、芸術作品から歯冠まで、あらゆるものを作成しています。

スタイルGAN

Nvidiaのスタイル転送GANから作成された画像の一部。画像クレジット:Karras et al.およびNvidia

GANの性能は、結果のリアルさに大きく左右されます。4年前、人間の顔を捉えた小さくぼやけたグレースケール画像から始まったGANは、今ではフルカラーの肖像画へと進化を遂げました。

古いGAN

GANのアイデアが初めて導入された当初の結果。画像提供:Goodfellow et al.

Nvidiaの研究者によって構築された新しいGAN [PDF] は、「スタイル転送」というアイデアに基づいています。まず、生成ネットワークは実在の人物の写真から取得した定数入力を学習します。この顔は参照として使用され、画像内のすべての特徴を記述する潜在空間にマッピングされたベクトルとしてエンコードされます。

これらの特徴は、目、鼻、口、髪、ポーズ、顔の形など、顔を構成する基本的な特性と相関しています。ジェネレーターがこれらの特徴を学習した後、これらの詳細を調整して新しい顔を作成できます。

これらの特徴の外観をどのように変化させるかを決定する変換は、別の二次写真から決定されます。つまり、元の写真は別の写真のスタイルをコピーするため、最終的な結果は両方の画像が混ざり合ったようなものになります。最後に、ノイズ要素も追加され、髪の毛、無精ひげ、そばかす、毛穴の正確な配置など、ランダムなディテールが生成され、画像がよりリアルに見えます。

「私たちのジェネレーターは、画像を『スタイル』の集合体と捉え、それぞれのスタイルが特定のスケールで効果を制御します」と研究者らは説明した。特徴は様々なスタイルに分類できる。粗いスタイルにはポーズ、髪型、顔の形が含まれる。中程度のスタイルは顔の特徴で構成され、細かいスタイルは全体の色を決定する。

スタイルGAN_2

写真とソース写真を掛け合わせることで、異なるスタイルタイプがどのように学習され、転送されるか。画像提供:Kerras et al.、Nvidia。

そのため、様々なスタイルタイプを他の写真と継続的に組み合わせることで、様々な民族、性別、年齢の人物写真をカバーする全く新しい画像を生成することができます。この様子を撮影したビデオを以下でご覧いただけます。

YouTubeビデオ

識別ネットワークは、生成器から送られてくる画像を検査し、本物か偽物かを判断しようとします。生成器は時間の経過とともに改善され、その出力は常に識別器を欺くようになります。

素晴らしい、インターネット上にボットが増えている

最近では、何かが本物か機械で作られたものかを見分けることが難しくなってきています。こうしたツールを開発することで、研究者はGANを探索し、容易にテストできるようになりますが、潜在的な欠点も存在します。

GitHub で顔交換コードが公開されたとき、変質者が GAN を使用して、お気に入りの有名人の顔をアダルト女優の体に追加し、ポルノビデオを改造していたことを覚えていますか?

NVIDIAは近々ソースコードとデータセットを公開する予定で、他の人も偽の顔を作成できるようになる予定です。つまり、TwitterやFacebookのボットのような偽アカウント用に、本物そっくりのプロフィール写真を作成できるようになるかもしれません。

ビキニボトム。写真:Shutterstock

偽りの潔癖症:カトリック大学のAIボットが裸の女にビキニを塗るよう教える

続きを読む

Nvidiaの結果は今のところ最高かもしれませんが、じっくりと見てみると、まだ微妙な違いが見られます。コードを扱うアーティスト、カイル・マクドナルド氏は、画像がAIシステムによって生成されたものかどうかを判断する際に注意すべき点のリストを公開しました。

「低解像度では、論文に掲載されている画像のほとんどが写真と区別がつきません。目立つアーティファクトがいくつかあるので、それらについては対処したいと思っています」と彼は今月初めのブログ投稿で述べた。

マクドナルド氏は、「イヤリングが欠けている」問題と呼んでいる点を指摘しています。画像にはしばしば耳の下に小さな円形のグリッチが見られますが、これはGANが以前写真に写っていたイヤリングを無理やり追加しようとしたために生じたものと考えられます。他にも、顔の輪郭の非対称性、歯のディテールの欠如、奇妙な髪の毛、衣服の模様など、わずかな不具合も見られます。

しかし、NVIDIAの成果を再現するのがどれほど容易なのかは明らかではない。広報担当者はEl Regに対し、論文は現在査読中であり、投稿規定により論文が出版されるまでは報道機関との事前協議は認められていないと述べた。

しかし、論文[PDF]によれば、トレーニングプロセス中に調整できるパラメータは2,620万個あるため、ハードウェアとコンピューティングのための資金がない場合は、おそらく取り組むべきプロジェクトではないでしょう。®

Discover More