AIアートジェネレーターMidjourneyの創設者David Holz氏が語るイメージングの未来

Table of Contents

AIアートジェネレーターMidjourneyの創設者David Holz氏が語るイメージングの未来

インタビュー2008年、デイビッド・ホルツはハードウェア周辺機器メーカーのLeap Motionを共同設立しました。昨年同社を退社し、Midjoureyを設立するまで同社を率いていました。

Midjourneyは、現在の形態では、テキストプロンプトからAI生成アートを作成するためのソーシャルネットワークです。入力プロンプトに単語やフレーズを入力すると、約1分の計算処理の後、興味深い、あるいは素晴らしい画像が画面に表示されます。OpenAIのDALL-E 2といくつかの点で似ています。

旅の途中の空と雲のイメージ、プロンプト、このすべての無駄な美しさ

Midjourneyによる空と雲の画像。テキストプロンプト「この無駄な美しさすべて」を使用。出典:Midjourney作成

どちらも膨大な数の画像で学習させた大規模なAIモデルによって生み出された作品です。しかし、MidjourneyはTwitterのスレッドからもわかるように、独自のスタイルを持っています。どちらも最近パブリックベータテストを開始しました(ただし、DALL-E 2へのアクセスは徐々に拡大されています)。

テキスト入力を用いてAIモデルから高品質な画像を生成する機能は、OpenAIのCLIP(Contrastive Language–Image Pre-training)のリリースを受けて昨年人気を博しました。CLIPは、生成された画像がテキスト記述とどの程度一致しているかを評価するために設計されました。リリース後、アーティストのRyan Murdock(Twitterアカウント:@advadnoun)は、このプロセスを逆転できることを発見しました。テキスト入力を提供することで、他のAIモデルの助けを借りて画像を出力できるのです。

その後、ジェネレーティブ アート コミュニティは熱心な探求の時代に入り、さまざまなモデルやテクニックを使用して画像を作成するための Python コードを公開しました。

「昨年のある時期、AIの特定の分野が非常に興味深い形で進歩していることに気づきました」とホルツ氏はThe Register紙のインタビューで説明した。「その一つが、AIの言語理解能力でした。」

ホルツ氏は、CLIPの基盤となる深層学習モデルであるトランスフォーマーや、GANの代替となる拡散モデルといった開発成果を挙げた。「個人的に特に印象に残ったのは、キャサリン・クロウソン氏(Twitterでは@RiversHaveWings)が開発したCLIP誘導拡散モデルです」と彼は述べた。

ステレオタイプなフロリダ人ではない

ホルツはフロリダで育ち、高校時代には数学と物理学を学び、デザインビジネスを営んでいました。応用数学の博士号取得を目指していた彼は、2008年に休学してLeap Motionを設立しました。翌年、マックス・プランク研究所で学生研究員として1年間過ごし、その後2年間、NASAラングレー研究所で大学院生研究員としてLiDAR、火星探査、大気科学の研究に従事しました。

「なんでこんなことに取り組んでいるんだろうって思ったんだ」と彼は説明した。「ただ、自分が大切に思っているクールなことに取り組みたいだけなんだ」

そこで彼は、手の動きをトラッキングし、デバイス入力に利用するハードウェアデバイスを開発するLeap Motion社に着目しました。彼は12年間同社を経営し、退社時には従業員数は約100人に達していました。

ミッドジャーニーは今のところかなり小規模だと彼は言った。「10人くらいです」と彼は説明した。「自己資金で運営しています。投資家はいません。金銭的な動機はあまりありません。ただ、情熱を注げること、そして楽しむことのためにここにいるんです。そして、これまで様々なプロジェクトに取り組んできました。」

ホルツ氏は、AIの技術的側面とその進歩の程度は比較的容易に予測できると述べた。「しかし、それが人間に及ぼす影響は想像しがたい」と彼は述べた。「人間性とテクノロジーの交差点に何かがある。それが何なのか、そしてどうあるべきかを真に理解するには、多くの実験を行う必要がある」

今後の道

AI 画像技術の不安定な性質は、Midjourney のようなツールと、Blender のようなダウンロード可能なオープンソース グラフィック アプリケーション、または Adob​​e Photoshop (クラウド サービスになる前) のようなローカルにインストールされる商用アプリケーションとの違いに明らかです。

Midjourneyはソーシャルな文脈で存在します。フロントエンドはチャットサービスDiscordです。新規ユーザーはDiscordのMidjourneyサーバーにログインし、様々な初心者チャンネルで他のユーザーと一緒にテキストプロンプトを送信して画像を生成することができます。

生成された画像は、そのチャンネルの全ユーザー向けに約1分で表示されるため、コミュニティ意識の強化に役立ちます。月額10ドルまたは30ドルのサブスクリプションにアップグレードすると、Discordアプリ内のMidjourneyボットにプライベートダイレクトメッセージでテキストを送信し、パブリックチャンネルで他のユーザーからのやり取りが画面をスクロールしていくことなく、画像を受け取ることができます。ただし、生成された画像はデフォルトで公開されたままになります。

「死んだ蝶たちの鮮やかなコレクション」@images_ai、@ai_curio、#midjourney pic.twitter.com/OFKRJtJq5w

— トーマス・クラバーン(@ThomasClaburn)2022年6月10日

ソーシャルアプリであるMidjourneyは、許容コンテンツに関する規則の対象となりますが、Blenderなどのローカルアプリをご利用の方はご心配いただく必要はありません。Midjourneyの利用規約には、「成人向けコンテンツや残酷描写は禁止です。視覚的に衝撃的または不快なコンテンツの作成はご遠慮ください。一部のテキスト入力は自動的にブロックされます。」と記載されています。

DALL-E 2 には、コンテンツ ポリシーに記載されているとおり、同様の、ただしより広範な制限が適用されます。

「もしソーシャルメディアのない世界に住んでいたら、どんな制限も必要なかっただろうと思う」とホルツ氏は語った。「…Photoshopが発明された当時は、実際に報道で『何でも偽造できてしまうなんてちょっと怖い』といった内容が取り上げられた。しかし今では、センセーショナルな作品を作る方が以前よりずっと儲かるようになっている」

「今は誰でもセンセーショナルな作品を作ることができ、基本的にそれで利益を得ています」とホルツ氏は語った。「そして、それがドラマチックでセンセーショナリズムの市場を生み出しているのです。だからこそ、私たちはもう少し慎重にならなければならないと思います。なぜなら、いつか人々はこう言うでしょう。『よし、これについて映画を撮ろう。では、最もドラマチックで、不快で、恐ろしい作品は何だろう?』と」

簡単な答えはない

ホルツ氏は、ソーシャルプラットフォームがこれらの問題を軽減できる点はあるものの、簡単な解決策はないと述べた。「残念ながら、社会全体としてセンセーショナリズムへの報酬を減らす以外に、明確な解決策はありません」と彼は述べた。「しかし、私の印象では、ソーシャルプラットフォームを変えてセンセーショナリズムを減らそうと真剣に取り組んでいる人は誰もいないようです。なぜなら、今はそれが彼らの利益になっているからです。」

さらに、Midjourney は 13 歳以上の誰もが利用できる社交の場となることを目指しているため、過激なコンテンツやグラフィック コンテンツに対するルールを設ける必要があると彼は述べた。

「死体を作るのが好きな人やヌード写真が好きな人のために、分断された空間を作りたいとは思っていません」とホルツ氏は説明した。「そういう状況に巻き込まれたくないんです。今の段階では、そうする道徳的義務はないと思っています。私たちが求めているのは、みんなが一緒に何かを作り、基本的に不快感を抱かず、安心して過ごせる、美しい社交空間なのです。」

その目的に向けて、同社にはユーザーが作成する画像を監視するモデレーターが約 40 人いる。

  • GoogleとIntelがAIチップ、ニューラルネットワーク交換などを開発
  • AIチャットボットと定期的に会話する人は、AIチャットボットが知覚を持っていると信じ始めることが多いとCEOは語る
  • AMDのAI戦略がザイリンクス、GPU、ソフトウェア計画とともに明らかに
  • セレブラス、単一チップ上で「最大のAIモデル」の記録を樹立

Midjourneyのソーシャル機能は最近、画質の向上に着手しました。ホルツ氏によると、同社のエンジニアは最近、ソフトウェアのバージョン3をリリースし、ユーザーのアクティビティと反応に基づくフィードバックループを初めて組み込んだとのことです。

「バージョン3を見れば、劇的な改善が分かります」と彼は語った。「驚くほど良くなりました。実際には、アート要素を追加したわけではありません。ユーザーがどんな画像を好み、どのように使っているかというデータを取得しただけです。それが実際に改善につながったのです。」

Midjourneyの技術スタックについて尋ねられると、ホルツ氏はためらった。「いずれ、どのベンダーを使っているのかを具体的にプレスリリースで発表することになると思います」と彼は言った。「何十億ものパラメータを持つ大規模なAIモデルを保有しており、数十億枚の画像でトレーニングしています」

ホルツ氏は、ユーザーは毎日何百万枚もの画像を作成しており、グリーン エネルギー コンピューティング プロバイダーを利用していると述べています。ただし、すべての大手クラウド コンピューティング プロバイダーが少なくともカーボン ニュートラルであると主張しているため、これによってプロバイダーの範囲が狭まることはありません。

「すべてのイメージはペタオプス(1秒あたり10の15乗)の演算処理を必要とします」と彼は述べた。「つまり、数千兆回の演算です。5兆回なのか、10兆回なのか、50兆回なのかは正確には分かりませんが、イメージ1枚を作るのに数千兆回の演算が必要です。おそらく最もコストが高いのは…Midjourneyをサービスと呼ぶなら、つまりサービスや製品と呼ぶなら、間違いなく、一般の人がこれほどのコンピューティング能力を使うサービスはこれまで存在したことがありません。」

食料と衣服の供給

しかし、ミッドジャーニーは、無料サービスで獲得した顧客を有料プランにアップセルし、株式公開や買収される前に高額な支払いをする企業クライアントを引きつけるという道を歩んではいない。

「多額の資金を調達したものの、事業内容や製品が何なのかが定まらず、長期間赤字に陥るようなスタートアップとは違います」とホルツ氏は語った。「自己資金で運営する研究所のようなものです。ある程度の損失は許容できます。他人の資金1億ドルを失うようなことは考えていません。正直に言うと、既に利益を上げており、それで問題はありません。」

「これはとてもシンプルなビジネスモデルです。つまり、人々がそれを楽しんで使っているかどうか?もし楽しんで使ってくれたら、使用料を支払ってもらうんです。なぜなら、原価は実際にはかなり高いからです。そして、それに一定の割合を上乗せします。これで食費と住居費を賄えるくらいにはなると思っています。それが私たちのやっていることです。」

将来的には、スケーリングが問題になる可能性がある。ホルツ氏によると、ミッドジャーニーのサービスは現在数十万人が利用しており、約1万台のサーバーが必要だという。

「もし1000万人がこのような技術を使おうとしたら、実際にはコンピューターの数が足りないでしょう」と彼は言った。「世界中にAIを使える空きサーバーが100万台もありません。この技術が実際に使いたい人全員に行き渡る前に、世界はコンピューターを使い果たしてしまうでしょう」

皆さんはどんな用途で使っているのでしょうか?Midjourneyアカウントにログインしていれば、コミュニティフィードページで人々が何を作っているか見ることができます。興味深い、そしてしばしば驚くほど素晴らしい画像が絶え間なく投稿されています。

小さな雲の家 2 #midjourney #aiartcommunity pic.twitter.com/uL9WlJDMC6

— 詩的なAI(@generated_pa​​int)2022年7月24日

「ほとんどの人はただ楽しんでいるだけです」とホルツ氏は語った。「それが一番大事なことだと思います。なぜなら、これは芸術ではなく、想像力の問題だからです」

プロフェッショナルであること

しかし、約30%のユーザーにとっては、プロフェッショナルなツールです。ホルツ氏によると、多くのグラフィックアーティストがMidjourneyをコンセプト開発のワークフローの一部として利用しています。彼らはアイデアのバリエーションをいくつか作成し、クライアントに提示して、どの方向性で進めていくべきかを判断します。

「プロフェッショナルたちは、クリエイティブな作業やコミュニケーションのプロセスを加速させるためにこれを使っています」とホルツ氏は説明した。「そして、多くの人はただ遊んでいるだけだったのです」

おそらく20%ほどの人が、Midjourneyをホルツ氏が言うところのアートセラピーに利用している。例えば、愛犬が亡くなった後に犬の絵を描くといったことだ。「彼らは感情的かつ知的な内省のツールとしてMidjourneyを利用しているんです」とホルツ氏は言う。「本当に素晴らしいことなんですよ」

ホルツ氏は、ミッドジャーニーを使って偽の写真を作るという考えを嫌悪している。「編集記事でミッドジャーニーを使って偽の写真を作るのは極めて危険です」と彼は言う。「誰もそんなことをすべきではありません」。しかし、商業的なイラストの素材としてミッドジャーニーを使うことには前向きで、エコノミスト誌が6月に表紙にミッドジャーニーのグラフィックを掲載したことを指摘する。

「つい最近になってようやく商用利用を許可しました」とホルツ氏は述べた。「長い間、非商用利用のみでした。ですから、私たちが行っていることの一つは、人々が何をしているのかを注意深く観察することです。そして、その一部に問題があると判断した場合は、その用途のみでの使用を禁止するルールを設ける予定です。」

ホルツ氏は、MidjourneyのようなAIツールは、すべての人をプロのアーティストにするものではなく、アーティスト自身の仕事の質を向上させるものだと考えていると述べた。「これらのツールを使うアーティストは、一般の人が使うよりも常に優れています。素晴らしい作品が作れるので、いつかこれらのツールを使わなければならないというプレッシャーが生まれるかもしれません。そうだと思います。しかし、今はまだそこまでには至っていないと思います。しかし、今後2年間で驚くほど良くなるでしょう。」

訴訟の国アメリカ

ホルツ氏は、法的状況が明確でないことを認めている。

「現時点では、こうしたことに関する法律はほとんど存在しません」と彼は述べた。「私の知る限り、あらゆる大規模AIモデルは基本的にインターネット上にあるものを使って訓練されています。今のところ、それで問題ありません。これに関する具体的な法律はありません。将来的には、もしかしたらできるかもしれません。しかし、これはある意味新しい分野です。GPLがプログラミングコードに関する新しい法的枠組みだったのと同じように。そして、それが法制度に理解され始めるまでには、20~30年かかりました。」

ホルツ氏は、現時点では関係者がこの技術についてどう感じているかを理解することの方が重要だと考えていると述べた。「私たちの製品を使用しているアーティストはたくさんいます。『これで大丈夫ですか?』と常に確認しています」と彼は語った。

ホルツ氏は、現状への不満が十分に高まるのであれば、モデルの学習に作品を提供するアーティストに対して、将来的に何らかの報酬体系を検討する価値があるかもしれないと述べた。しかし、現状では貢献度を評価するのは難しいと指摘した。「現状、そうした取り組みの課題は、AIモデルをうまく機能させているものが何なのか、実際には明確ではないことです」とホルツ氏は述べた。「犬の写真をAIモデルに入れた場合、それが実際に犬の絵を描くのにどれだけ役立つのでしょうか。データのどの部分が実際にAIモデルにどのような能力を与えているのか、実際には明確ではありません。」

Midjourneyの独特の美的感覚の源について尋ねられたホルツ氏は、Midjourneyの取り組みをDALL-E 2と比較するのは難しいとしながらも、一般的にAI研究者は最適化したものを実現する傾向があると答えた。「犬」という言葉を入れるなら、おそらく犬の写真を欲しがっているのだろう。

「最適化する際には、美しく見えるようにしたいと考えていました。美しいとは必ずしもリアルであるという意味ではありません。…どちらかといえば、写真とはやや異なるイメージです。…この技術はディープフェイクのスーパーマシンとして利用できることは分かっています。そして、世界にこれ以上の偽写真は必要ないと思っています。私は、世界に偽写真の発信源になりたくありません。」

「実は、私たちの製品が写真のような見た目のものを作ってしまうと、少し違和感を感じます。だからといって、よりリアルなものを作らせないというわけではありません。よりリアルに見えるものを作るという正当なユースケースもあります。しかし、誰かが私たちのシステムを使う際に、デフォルトで偽の写真が作られるべきではないと強く感じています。」

「でも、世界にはもっと美しいものが必要だと思っています。基本的に、私が何かを創ることで人々が美しいものを作ることができ、世界にもっと美しいものが増えるなら、それが私の望むことです。」®

Discover More