OpenAIは、テキストの説明に合わせて自動的に画像を作成できるGPT-3の新しいバージョンを宣伝しています。

Table of Contents

OpenAIは、テキストの説明に合わせて自動的に画像を作成できるGPT-3の新しいバージョンを宣伝しています。

OpenAI は、最新の GPT-3 ベースのニューラル ネットワークをチラ見せしました。これは、DALL·E として様式化されたテキスト キャプションが与えられると、何百もの偽の画像を自動的に生成できる 120 億のパラメータ モデルです。

一見、それほど面白そうに思えないかもしれませんが、DALL·Eの真価を理解するには、実際に動作しているところを実際に見てみる必要があります。動物、物体、風景など、リアルな画像を作成できます。実際にこのシステムを試してみたところ、「心臓の断面図」というプロンプトを受け取ったときに、以下のような画像が出力されました。

心臓

DALL·Eは心優しい人です。クリックして拡大

もっと複雑な例として、「オリーブ色のアームチェア2脚とイカの絵が飾られたリビングルーム。絵はコーヒーテーブルの上に掛けられています。」というのがあります。悪くないと思いませんか?

タコ

より複雑ですが、それでもかなり良いです。クリックして拡大

また、ランダムで無意味な概念の絵を思いついたり、「チュチュを着た小さな大根が犬を散歩させているイラスト」のように、おそらく存在しない物体を思いついたりすることもできます。

大根

なぜダメなの?クリックして拡大

OpenAIのブログに掲載されている例のテキストプロンプトでは、ドロップダウンメニューの様々なオプションをクリックして個々の単語を選択することで、様々な奇妙な組み合わせを試すことができます。DALL·Eは大規模言語モデルGPT-3から構築され、テキストを解析します。ただし、単語や文を生成するのではなく、ピクセルや画像を吐き出します。

DALL·Eは、イン​​ターネットから収集された数億枚もの画像とそれに対応するキャプションを含むと思われるデータセットを用いて学習されました。研究室は現時点ではDALL·Eの技術的な詳細のほとんどを公表しておらず、今後発表する学術論文で詳細を明らかにする予定だと述べています。

現時点では実用的なツールというよりはむしろ好奇心の産物ですが、クリエイティブ業界に革命を起こす可能性を秘めていると考える人もいます。もしDALL·Eのようなツールが市販され、機械が同じ仕事をより速くこなせるようになったら、デザイナー、イラストレーター、アーティスト、写真家にとっての未来はどうなるでしょうか?

「生成モデルに関する研究は、社会に重大かつ広範な影響を与える可能性があることを認識しています」とOpenAIは述べています。「今後、DALL・Eのようなモデルが、特定の業務プロセスや職業への経済的影響、モデル出力におけるバイアスの可能性、そしてこの技術が示唆する長期的な倫理的課題といった社会問題とどのように関連しているかを分析する予定です。」

いいえ、DALL·Eは人類の芸術の永遠の死を意味するものではありません

AIと創造性の交差点に焦点を当てた研究室、Creative AIのキュレーター兼研究者、ルバ・エリオット氏はThe Registerに対し、「DALL・Eは確かに商業製品として利用できる可能性がある」としながらも、人間が作り出す芸術にも常に余地があると語った。

非常にリアルな画像を全体的に生成できれば、画像単価と生成の容易さにもよりますが、一部の用途ではShutterstockやGetty Imagesと競合する可能性があります。こうした用途には、記事やブログ投稿用の画像などが含まれます。記事の内容に重点が置かれ、画像はコンテンツの補足として利用されます。

写真家やアーティストに関しては、彼らの仕事の種類によって異なります。イラストレーターやストックフォトグラファーは、そうしたツールに仕事を奪われる可能性はありますが、独自のスタイルと創造的なビジョンを持つファインアート写真家やアーティストに取って代わるには、まだ遠い道のりです。なぜなら、現段階では、機械は真に斬新なアイデアを考案し、それを実行に移すことに苦労しているからです。その成果物は過去の学習データに大きく依存していることが多く、人間のアーティストによって形作られ、意味づけられることで、より興味深いものになるのです。

ShutterstockとGetty Imagesは私たちの質問に回答しなかった。

エンタングルド・アザーズというスタジオで働くデジタルアーティスト、ソフィア・クレスポとフェイレアカン・マコーミックも同意見だ。彼らは、ストック画像を販売する企業は写真家やイラストレーター自身よりも大きな打撃を受けるだろうと予測したが、DALL·Eはまだ実物画像に取って代わるほどのものではないと考えている。DALL·Eの作品はシンプルで、テキストプロンプトの文言によってクオリティが変動するからだ。

入力されたテキストがあまりにも多くのオブジェクトを説明していたり​​、特に言葉が長すぎたりすると、機械は混乱し、誤った画像を生成する可能性があります。「オブジェクトが増えるほど、DALL·Eはオブジェクトとその色の関連性を混同しやすくなり、成功率が急激に低下します。また、DALL·Eはこのようなシナリオにおいてキャプションの言い換えに関して脆弱であることにも注意が必要です。意味的に同等の代替キャプションは、多くの場合、正しい解釈をもたらさないのです」と研究者らは説明しています。

これは、赤い立方体が上、緑の立方体が真ん中、青い立方体が下に配置された3つの立方体を含む画像を明示的に要求する例です。モデルは理解に苦しみ、複数の誤った解釈を導き出します。画像には間違った数の立方体が含まれており、多くの場合、立方体の積み重ね順序も間違っています。

キューブ

まあ、あまり良くないですね。クリックして拡大

前身のGPT-3と同様に、DALL·Eは一見派手ですが、それほど知的ではありません。ブログ記事で紹介されている例では、生成された512枚の画像のうち上位32枚しか表示されていません。つまり、残りの約94%は非表示になっています。もし全ての例を表示すると、画像の品質は徐々に低下する可能性があります。

コードを扱うアーティストのカイル・マクドナルド氏は、DALL・Eのようなツールが「汎用ストックフォトに必要な高解像度画像を生成できるようになるまでには、おそらく少なくとも3~5年かかるだろう。現時点では、顔や風景といった特定の種類の画像しかカバーされていない」と述べている。

DALL·Eがより高品質な画像を作成できるようになれば、このランキングシステムはそれほど悪くないかもしれない、とニュージーランドのウェリントン・ヴィクトリア大学デザイン学部のアーティスト兼講師、トム・ホワイト氏は語る。「出力のランキングを自動化することは非常に重要で、このシステムはそうでない場合よりもはるかに実用的になります。」

これにより、ユーザーは、マシンが作成したすべてのものを手動で分類することなく、良いものと悪いものを自動的に選別できるようになります。

著作権の問題と偏見

DALL·E のようなものが商用ツールになった場合、写真家や漫画家などの仕事の機会が減少するだけでなく、さらなる問題が発生します。

大規模な生成モデルは、学習データを記憶する傾向があります。ニューラルネットワークが大規模になればなるほど、学習に必要なデータ量が増え、記憶するデータ量も増えます。バークレー大学を率いる研究グループは、DALL·Eよりもパラメータ数が少ないGPT-3の小型版であるGPT-2を用いて、インターネットから拾ってきた文章をモデルに入力するだけで、スピーチ、ニュースの見出し、円周率の数百桁、聖書やコーランの一節、さらにはコード行までもを思い出せることを発見しました。このモデルは情報の想起に優れており、プロンプトを与えると、以前に見た情報で空白を埋めます。

DALL·Eも逃れられない、あらゆるAIモデルに影響を及ぼすもう一つの明白な問題は、バイアスです。もし誰かがDALL·Eを使って、不快、人種差別的、あるいはわいせつな画像を作り出したらどうなるでしょうか?もし、そうした画像が誤って生成されたらどうなるでしょうか?「そうした画像を除去する人が関与している限りは問題ありませんが、DALL·Eが独立した自動化ツールになった場合は問題になるでしょう」とシャンパンダール氏は述べました。

開発者が非常に効果的で広く入手可能な模倣版を作成しない限り、懸念は今のところ憶測の域を出ません。しかし、DALL·Eのような技術が最終的に商用化されると考えるのは、それほど突飛な話ではありません。結局のところ、マイクロソフトはOpenAIのGPT-3技術の独占ライセンス権を保有しています。レドモンドが、クリップアートをアップグレードしたり、Word文書やPowerPointプレゼンテーションを華やかにしたりするためのツールとしてこのモデルを使用する可能性もあるでしょう。

マイクロソフトとOpenAIはコメントを控えた。®

Discover More