DeepSeekはまだOpenAIとの連携を終えていない – 画像メーカーJanus ProはDALL-E 3を狙っている

DeepSeek の R1 LLM がシリコンバレーを驚かせてからわずか 1 週間後、この中国企業が新しいリリースで戻ってきました。同社は、OpenAI の DALL-E 3 に挑戦する準備ができていると主張しています。

サイバー攻撃が続く中、月曜日にHugging FaceでリリースされたJanus Pro 1Bおよび7Bは、画像生成と視覚処理の両方のタスクを処理できるように設計されたマルチモーダル大規模言語モデル（LLM）ファミリーです。DALL-E 3と同様に、Janus Proに入力プロンプトを与えると、それに対応する画像が生成されます。

これらのモデルは、中国の研究室が昨年リリースした最初の13億Janusモデルを改良したものと言われています。これは、処理用の単一のトランスフォーマーアーキテクチャを維持しながら、視覚的なエンコーディングを別の経路に分離することで実現されています。

モデルとそのアーキテクチャを詳述した研究論文[PDF]の中で、ニューラルネットワークの開発に携わった研究者たちは、オリジナルのJanusモデルは有望性を示したものの、「短いプロンプト、画像生成、そしてテキストから画像への生成品質の不安定さにおいて、最適なパフォーマンスが得られなかった」と指摘しています。DeepSeekによると、Janus Proでは、大規模なデータセットを使用し、より多くのパラメータをターゲットにすることで、これらの制限の多くを克服できたとのことです。

スタートアップ企業は、Janus Pro 7BがGenEvalおよびDPG-Benchベンチマークにおいて、Stable Diffusion 3 MediumとOpenAIのDALL-E 3の両方をわずかに上回る性能を示したと主張しています。ただし、画像解析タスクは384×384ピクセルに制限されている点に注意してください。

DeepSeekは、Janus Pro画像モデルがOpenAIのDALL-E 3やStability AIのSD3-Mediumよりも高いパフォーマンスを提供すると主張している。

DeepSeekは、Janus Pro画像モデルがOpenAIのDALL-E 3やStability AIのSD3-Mediumよりも高いパフォーマンスを提供すると主張している...拡大するにはクリックしてください

DeepSeek V3と同様に、モデル開発者は、PyTorch上でHAI-LLMフレームワークを実行し、わずか数百のGPUでこれらの結果を達成できたと主張しています。上記の論文で詳述されているプロセスによると、「1.5B/7Bモデルを16/32ノードのクラスターで学習させた場合、各ノードに8個のNvidia A100（40GB）GPUが搭載され、全体の学習プロセスは約7/14日かかりました」とのことです。

全く新しいモデルをゼロから学習させるのではなく、既存のモデルを再利用することで学習時間を短縮できた可能性があります。DeepSeekに問い合わせ、詳細を確認しました。

DeepSeekは、他のマルチモーダルLLMや拡散モデルと競合しているものの、まだ改善の余地があると認めています。「マルチモーダル理解においては、入力解像度が384×384に制限されているため、OCRなどの細粒度タスクのパフォーマンスに影響が出ます」と研究者らは説明しています。一方、画像生成においては、解像度の制限により、細部が欠落した画像が生成されることにも注意を促しています。

Janus コードベースは MIT ライセンスの下で利用可能で、Pro モデルの使用には DeekSeek のモデルライセンス (こちらから入手可能) が適用されます。

Janus Proのいずれかのモデルを試してみたい方は、DeekSeekのGitHubページでローカルテスト用のクイックスタートスクリプトを公開しています。また、Hugging Face Spacesで動作するデモをこちらで確認することもできます。注：テスト中、HuggingFaceのデモの読み込みに数分かかりました。

DeepSeekのモデル公開は市場に大きな反応を引き起こし、月曜日にはシリコンバレーの株価が急落した。これは、米国のAIにおける優位性と数十億ドル規模のインフラ整備の必要性が疑問視されたためだ。しかし、検閲問題など、いくつかの問題も発生している。

それだけでは不十分だったのか、DeepSeek は、進行中のサイバー攻撃のせいで、月曜日に AI チャットボットの新規登録を制限せざるを得なくなった。®

DeepSeekはまだOpenAIとの連携を終えていない – 画像メーカーJanus ProはDALL-E 3を狙っている

Table of Contents

Discover More

猫：テクノロジーでいっぱいのオフィスに猫が群がっているのは、ファンには不向き

時事問題：暴れまわるアライグマが衝撃的なミスで都市の電力網を停電させる

GM、Volt電気自動車の生産を停止

Table of Contents

Smart Recommendations

Discover More