OpenAI、オープンソースのテキスト3DモデルでPoint•Eに到達

Table of Contents

OpenAI、オープンソースのテキスト3DモデルでPoint•Eに到達

OpenAI は、テキスト プロンプトから 3D 画像を生成するオープン ソース プロジェクト Point•E をリリースし、テキストから画像を生成するソフトウェアの機能を 2 次元から 3 次元に拡張しました。

この AI 研究会社は、ライバルプロジェクトの Stable Diffusion や Midjourney と同様に、説明文から現実的または空想的な画像を生成できる DALL•E ソフトウェアで大きな注目を集めています。

Point•EはOpenAIのDALL•Eブランドで使用されている箇条書き記号を共有していますが、GLIDEと呼ばれる別の機械学習モデルに依存しています。そして現時点では、その能力はGLIDEほど高くありません。「交通コーン」のようなテキスト指示を与えると、Point•Eは交通コーンに似た低解像度の点群(空間上の点の集合)を生成します。

サンプルポイントE画像

Point•Eのサンプル画像 - クリックして拡大

結果は、映画やビデオゲームの商用3Dレンダリングの品質には遠く及びません。しかし、本来はそうあるべきではありません。ポイントクラウドは中間段階のものであり、Blenderなどの3Dアプリケーションに取り込むことで、より馴染みのある3D画像のようなテクスチャメッシュに変換できます。

メッシュに変換されたサンプルポイントE画像

メッシュに変換されたPoint•E画像のサンプル - クリックして拡大

「私たちの方法は、サンプルの品質という点では最先端の方法には及ばないものの、サンプルの取得が1~2桁高速化しており、一部のユースケースでは実用的なトレードオフとなる」と、OpenAIの研究者であるアレックス・ニコル、ヒーウー・ジュン、プラフルラ・ダリワル、パメラ・ミシュキン、マーク・チェンは、このプロジェクトを説明する論文[PDF]の中で説明している。

Point•Eのポイントは、「効率的に点群を生成する」という点です。この場合の「E」はまさにこのためです。最先端の手法では、最終的なレンダリングを作成するのに数時間のGPU処理時間を要するのに対し、Point•Eはわずか1~2分のGPU処理時間で3Dモデルを生成できます。GoogleのDreamFusionによるテキストから3Dモデルを生成する処理速度よりも大幅に高速で、ある推定によると600倍にも上ります。

しかし、Point•Eはまだ商用化可能なプロジェクトではありません。これは基礎研究であり、最終的にはオンデマンドで迅速な3Dモデル作成につながる可能性があります。さらなる研究によって、専門的な3Dグラフィックスキルを持たない人でも、仮想世界の作成がより容易になり、利用しやすくなるかもしれません。あるいは、3Dプリントオブジェクトの作成プロセスを簡素化するのに役立つかもしれません。Point•Eは、製品製造に使用するための点群の作成をサポートしています。

「これは、モデルが危険な物体の設計図を作成するために使用される場合と、経験的な検証がないにもかかわらず設計図が安全であると信頼される場合の両方に影響を及ぼします」と著者らは指摘しています。

  • OpenAIは2024年までにビジネスの売上高が10億ドルを突破すると予測
  • 研究によると、AIアシスタントは開発者がバグの多いコードを作成するのを助けていることが判明
  • OpenAIがChatGPTへの扉を開く。世界をちょっと真実っぽいもので満たすもう一つのAI
  • ChatGPTは自信トリックをマスターしており、それはAIにとってひどい姿だ

他にも解決すべき潜在的な問題があります。例えば、DALL•Eと同様に、Point•Eにもトレーニングデータセットから継承されたバイアスが含まれていることが予想されます。

そして、そのデータセット(数百万もの3Dモデルと、出所不明の関連メタデータ)には、ソースモデルが許可を得て、あるいは適用されるライセンス条項に従って使用されているという保証は一切ありません。これは法的に大きな問題となる可能性があります。

Point•EのGitHubリポジトリには、データセットに関する詳細情報を求める課題が既に投稿されています。韓国のAI開発者Doyup Lee氏は、「多くの研究者がトレーニングデータとデータ収集プロセスの詳細にも興味を持っていると思います」と述べています。

AIコミュニティが、明示的な許可なく他者の成果物を用いて機械学習モデルを学習させることに軽率な態度をとっていることが、OpenAIのCodexモデルを使用する開発者にプログラミングコードを提案するサービスであるGithub Copilotに対する著作権侵害訴訟の火種となっている。テキスト画像変換モデルも、商用化されるにつれて同様のテストが行​​われる可能性がある。®

Discover More