Metaの「Make-A-Video」に続き、Googleも水曜日にAIを活用したテキスト動画作成システムを構築したと発表した。このシステムは「Imagen Video」と呼ばれる。
先週のMake-A-Videoの公開を受けて、Googleはマーク・ザッカーバーグ率いるチームに遅れをとっていると思われないよう、突如として自社の競合システムを大々的に宣伝し始めたと言えるでしょう。あるいは、MetaがGoogleの発表予定を知り、自社の発表でそれを台無しにしようと躍起になったのかもしれません。あまりにも偶然の一致すぎるように思えます。
「おとぎ話の本から「Imagen Video」という文字の形をした芽が出ています。スムーズなビデオ」などのテキストプロンプトを入力すると、Google のソフトウェアは一連の画像を生成し、以下に示すような短いクリップを作成します。
Prompt: "Sprouts in the shape of text 'Imagen Video' coming out of a fairytale book."Model Output: pic.twitter.com/FVgnM0UAAn
— Durk Kingma (@dpkingma) October 5, 2022
他にも、「ニューヨーク市を走るテディベア」や「異星の惑星を舞台にした信じられないほど詳細なSFシーン、市場の眺め。ピクセルアート」など、プロンプトから完全に捏造された映像のモデルの例は数多くあります。
Imagen Videoは、Googleが5月にリリースしたテキスト画像変換システム「Imagen」をベースに構築されています。しかし、Imagen Videoは単一の静止画ではなく、複数のフレームの出力から動画を構築します。
テキストから動画への変換システムは、テキストから画像への変換システムよりも、学習と実行に多くの計算量を必要とします。例えば、Imagen Videoは7種類のモデルで構成されています。まず、テキストプロンプトからフレームを生成するだけでなく、次のフレームが何になるかを予測し、一貫性のある動きのあるアニメーション(各フレームは前のフレームからわずかに進化したもの)を形成する必要があります。そうしないと、関連する一連の画像を再生すると、ごちゃごちゃした混乱した印象を与えてしまいます。
Google の研究ノートによると、「Imagen Video は、カスケード拡散モデルを使用して高解像度のビデオを生成します。」
「最初のステップは、入力テキストプロンプトを取得し、T5 テキスト エンコーダーを使用してテキスト埋め込みにエンコードすることです。
基本的なビデオ拡散モデルは、24×48 解像度、3 フレーム/秒で 16 フレームのビデオを生成します。その後、複数の時間超解像度 (TSR) モデルと空間超解像度 (SSR) モデルがアップサンプリングして、最終的に 1280×768 解像度、24 フレーム/秒で 128 フレームのビデオを生成します。結果として、5.3 秒の高解像度ビデオが生成されます。
MetaのMake-A-Videoと同様に、GoogleのImagen Videoの品質はややぼやけています。画像の端がぼやけており、解像度もまだ十分ではありません。しかし、生成ビジュアルモデルの研究開発は急速に進んでおり、新しいアーキテクチャによって、より鮮明で高解像度、そして長時間再生可能なフェイク動画が作成できるようになるのは時間の問題でしょう。
Googleが示したImagen Videoがフレームごとにクリップを生成する例
これらのモデルは、コンピューターが水風船の破裂やアイスクリームの溶け方といった事象をシミュレートするために、論理的な一連の出来事を学習することに長けていることを示しています。Google Brainの研究者は、査読を受けていない研究論文[PDF]の中で、Imagen Videoは「時間的に一貫性があり」、「与えられたプロンプトとよく一致している」と述べています。
Imagen Video のトレーニングには、1,400 万の動画テキスト サンプルと 6,000 万の画像テキスト ペアで構成される Google の内部データセットと、公開されている LAION-400M 画像テキスト データセットの情報を使用しました。
- テキストを画像に変換するモデルは過去のものとなったが、テキストを動画に変換するモデルが登場した。
- SiFive RISC-VコアがGoogle AIコンピューティングノードに採用
- ついに誰かがAIモデルに言語障害を持つ人の理解を手助けしている
- ディープフェイクを使って詐欺師があなたのビジネスを騙す方法
「動画生成モデルは、例えば人間の創造性を増幅・拡張するなど、社会にプラスの影響を与えるために活用できます。しかし、これらの生成モデルは、偽造、憎悪、露骨、または有害なコンテンツを生成するなど、悪用される可能性もあります」と研究者らは述べています。LAION-400Mデータセットには、ポルノ画像やその他の問題のある画像が含まれていることも知られています。
チームは、モデルによって生成された動画内の不適切なテキストプロンプトや画像をブロックするためのコンテンツフィルターを適用しましたが、Imagen Videoは依然として「社会的偏見やステレオタイプ」を含むコンテンツを作成する傾向があり、人々が実験するにはまだ安全ではありません。「これらの懸念が軽減されるまで、Imagen Videoモデルとそのソースコードをリリースしないことに決定しました」とチームは結論付けています。
つまり、Meta のおもちゃと同様に、Imagen Video は一般公開されていないため、おそらく、現時点では他の何よりも、一般公開することで「ねえ、こんなクールなものに取り組んでみようよ」という採用ツールが増えることになるのでしょう。®