Googleは、フォトリアリスティックなDALL-E 2のライバルをリリースすると発表しているが、このAIは偏見が強すぎて使えない

Table of Contents

Googleは、フォトリアリスティックなDALL-E 2のライバルをリリースすると発表しているが、このAIは偏見が強すぎて使えない

DALL·E 2 は、最も印象的な画像生成 AI としての座を、Imagen と呼ばれる独自のテキスト画像変換モデルを公開した Google に譲らざるを得なくなるかもしれない。

OpenAIのDALL·E 2と同様に、Googleのシステムはユーザーからの指示に基づいて物体の画像を出力します。ノートパソコンを爪に引っ掛けて飛び立つハゲタカの画像を作成してほしいと頼めば、まさにその画像が即座に生成されるかもしれません。

Imagenのウェブサイトをざっと見てみると、マカロンの山にとまるアオカケス、エッフェル塔の前でワインを楽しむロボットカップル、本から飛び出すImagenの名前など、Imagenが作成した(そしてGoogleが厳選した)写真がいくつか見られる。チームによると、「人間の評価者は、画像とテキストの配置と画像の忠実度の両方において、他のどのモデルよりもImagenを非常に高く評価している」とのことだが、そう言うのも当然だろう。

ImagenはGoogle ResearchのBrain Teamが開発したもので、同チームは、このAIがトランスフォーマーと画像拡散モデルを組み合わせることで、前例のないレベルのフォトリアリズムを実現したと主張しています。DALL·E 2やVQ-GAN+CLIPといった類似モデルと比較したテストでは、Imagenが圧倒的な性能を示したとチームは述べています。モデルのベンチマークに使用された200種類のプロンプトからなるDrawBenchは、社内で開発されました。

Imagenによって生成された一連の画像とテキストプロンプト

Imagen の作品、プロンプト付き... 出典: Google

Imagenの設計者によると、重要なブレークスルーはモデルの学習段階にあったという。チームによると、この研究は、大規模で固定された学習済み言語モデルがテキストエンコーダとしていかに効果的であるかを示しているという。そして、その言語モデルのスケーリングは、Imagenの他のコンポーネントのスケーリングよりもはるかにパフォーマンスに大きな影響を与えることを発見した。 

「私たちの観察は、テキストエンコーダーとしてさらに大きな言語モデルを探求するという将来の研究方向を奨励するものです」と研究チームは書いています。

Imagen を試してみたい人にとっては残念なことに、Imagen を開発したチームはいくつかの理由から、コードも公開デモも公開しないと述べている。 

例えば、Imagenは人間の顔を生成するのが得意ではありません。人間の顔を含む写真を使った実験では、Imagenは人間の評価者から参照画像よりもわずか39.2%の好感度しか得られませんでした。人間の顔を削除すると、その数値は43.9%に跳ね上がりました。

残念ながら、Google は Imagen で生成された人間の写真を一切提供していないため、顔を生成するために一般的な敵対的ネットワークを使用する This Person Does Not Exist などのプラットフォームで生成された写真とどう比較するかは不明です。

技術的な懸念のほかにも、そしてさらに重要な点として、Imagen の制作者は、そうした偏見を防ごうとしていたにもかかわらず、それが少々人種差別的かつ性差別的であることに気づいた。

  • OpenAIのDALL·E 2は、偏った、あるいはNSFWなAI画像を生成することがある
  • 成功するまで偽装する: 合成データは AI モデルのトレーニングに役立ちますか?
  • AIが生成したLinkedInの顔画像1,000枚以上が発見される
  • AIは生成した芸術作品に著作権を付与できない - 米国当局

Imagenは「西洋のジェンダーステレオタイプに合わせるため、肌の色が薄い人物や、職業の異なる人物の画像を生成する傾向が全体的に見られた」と研究チームは述べている。人間を除外してもあまり効果はなかった。「Imagenは、活動、イベント、物体の画像を生成する際に、様々な社会的・文化的バイアスをエンコードしている」 

類似のAIと同様に、ImagenはCOCOやLAION-400Mといった公開データセットにインターネットから収集された画像とテキストのペアを用いて学習されました。Imagenチームは、ノイズや不快なコンテンツを除去するためにデータのサブセットをフィルタリングしたと述べていますが、LAIONデータセットの監査では「ポルノ画像、人種差別的な中傷、有害な社会的ステレオタイプなど、幅広い不適切なコンテンツが発見されました」と述べています。

機械学習における偏りはよく知られた問題です。Twitter の画像切り取りや Google のコンピューター ビジョンは、私たちが生成するデータに組み込まれたステレオタイプに影響を与えていると指摘されている例のほんの一例です。 

「Imagenのようなテキスト画像モデルをユーザー向けアプリケーションに安全に統合するには、解決しなければならないデータ上の課題が数多くあります。…トレーニングデータセットの内容に細心の注意を払わずに、テキスト画像生成手法をユーザー向けツールに使用することは強く警告します」とImagenの開発者は述べています。®

Discover More