OpenAIとその仲間たちが懸念している中国のLLMメーカーはDeepSeekだけではない。そうだろう、アリババ?

Table of Contents

OpenAIとその仲間たちが懸念している中国のLLMメーカーはDeepSeekだけではない。そうだろう、アリババ?

分析DeepSeekが主張する大規模言語モデル(LLM)の学習速度と効率は、米国最高水準に匹敵する。これはシリコンバレーにとって現実を突きつけるものとなった。しかし、米国が懸念すべき中国のモデル構築企業は、このスタートアップだけではない。

今週、中国のクラウドおよび電子商取引の巨人であるアリババは、一連のLLMを発表した。その中には、Qwen 2.5 Maxと呼ばれる新たなフロンティアモデルと思われるものがあり、同社は、推論機能付きR1のベースとなっているDeepSeekのV3よりも性能が優れているだけでなく、米国のトップモデルを圧倒すると見ている。

いつものように、ベンチマークは鵜呑みにしないことをお勧めしますが、Alibaba を信じるならば、Web を検索し、入力からテキスト、ビデオ、画像を出力できる Qwen 2.5 Max は、人気の Arena-Hard、MMLU-Pro、GPQA-Diamond、LiveCodeBench、および LiveBench ベンチマーク スイート全体で、OpenAI の GPT-4o、Anthropic の Claude 3.5 Sonnet、および Meta の Llama 3.1 405B を上回るパフォーマンスを発揮しました。

Alibaba によると、Qwen2.5-Max は競合製品と比べて以下のようになります。

Alibabaによると、Qwen 2.5-Maxは競合製品と比べてどうなっているのでしょうか…クリックして拡大

DeepSeekをめぐる熱狂を考えると、Alibabaが世界中で話題になっているR1モデルではなく、V3と比較していることを強調せざるを得ません。これは、OpenAIの主力モデルであるo1ではなく、GPT-4oと比較されている理由も説明できるかもしれません。

いずれにせよ、今回の発表は、西側諸国による中国のAI開発抑制の継続的な取り組みにもかかわらず、AI分野における米国の優位性はこれまで考えられていたほど大きくないかもしれないという認識をさらに強めるものだ。そして、シリコンバレーが人工知能開発に要求する数十億ドル単位の資金は、やや強欲すぎるという認識も強まっている。

速度と送り、あるいはそれらの欠如

残念ながら、AlibabaのQwenチームは、パフォーマンスに関する主張、APIアクセス、そしてWebベースのチャットボット以外については、最新モデルのリリースについてあまり口を閉ざしています。DeepSeekは、DeepSeekのアプリやクラウドに依存したくない場合はモデルを無料でダウンロードして使用できますが、AlibabaはQwen 2.5 Maxをリリースしていません。Alibabaのサーバーからアクセス可能です。

これまでにわかっていることは、Qwen 2.5 Max は、20 兆トークンのコーパスでトレーニングされ、その後、教師あり微調整と人間からのフィードバックによる強化学習を使用してさらに改良された大規模な専門家混合 (MoE) モデルであるということです。

名前が示すように、Mistral シリーズや DeepSeek の V3 および R1 などの MoE モデルは、コーディングや数学などの特定のタスクを処理するようにトレーニングされた複数の人工専門家で構成されています。

MoEモデルは、パラメータ数と実際のパフォーマンスを切り離すために、モデル構築者の間でますます人気が高まっています。特定のリクエストに対してモデルの一部のみがアクティブになるため(クエリを処理するためにニューラルネットワーク全体をアクティブにする必要はなく、質問に関連する「エキスパート」部分のみをアクティブにする)、スループットを犠牲にすることなくパラメータ数を増やすことが可能になりました。

つまり、数十億のパラメータを持つネットワーク全体で入力クエリを実行し、トークンごとにすべての計算を実行するのではなく、クエリに関連するレイヤーのみが使用されるため、出力がより速く生成されます。

現時点では、アリババはQwen 2.5 Maxの規模を明らかにしていません。ただし、以前のQwen Maxモデルは約1000億パラメータのサイズだったことは分かっています。

The RegisterはAlibabaにコメントを求めており、回答が得られ次第お知らせします。一方、Qwen 2.5 Maxにはオンラインチャットボットフォーム経由でスペックを教えてもらいましたが、こちらもあまり詳しくないようです。仮に数字が出たとしても、信じるかどうかは分かりません。

パフォーマンスとコスト

これまでの多くのQwenモデルとは異なり、Qwen 2.5 Maxのニューラルネットワークの重みは、おそらく入手できないでしょう。Alibaba Cloudのウェブサイトでは、このモデルは独自のものとして記載されており、中国の巨大企業がこのモデルについてほとんど情報を公開していない理由が説明できるかもしれません。

パラメータ数やその他の重要な詳細を開示しないのは、多くのモデルビルダーにとって当然のことで、アリババも自社の Qwen Turbo および Qwen Plus モデルに関して同様に口を閉ざしている。

詳細が不足しているため、モデルのパフォーマンス評価はコストとのバランスを考慮する必要があり、やや困難です。あるモデルがベンチマークで他のモデルよりも優れたパフォーマンスを発揮したとしても、実行コストが3~4倍も高ければ、その手間をかける価値がないかもしれません。Qwen 2.5 Maxはまさにその例です。

現時点では、アリババのウェブサイトではモデルへのAPIアクセスが提供されており、入力トークン100万個あたり10ドル、生成トークン100万個あたり30ドルで提供されています。これに対し、OpenAIがGPT-4oに請求しているのは、入力トークン100万個あたり2.50ドル、出力トークン100万個あたり10ドルです。バッチ処理を選択した場合は半額になります。

そうは言っても、Qwen 2.5 Max は、OpenAI の主力モデルである o1 モデル (入力トークン 100 万個あたり 15 ドル、生成される出力トークン 100 万個あたり 60 ドル) よりも安価です。

成長する家族

前述のように、アリババの最新のQwenモデルは、2023年以降に中国の巨大企業がリリースした一連のLLMの中で最新のものに過ぎない。Qwen 2.5という名前を持つ最新世代のモデルは9月に少しずつリリースされ始め、アリババは0.5、1.5、3、7、14、32、720億のパラメータバージョンの重みを公開している。

アリババは、これらのモデルの中で最大のものは、Metaのはるかに大型な405B Llamaモデルと互角に渡り合い、場合によっては凌駕すると主張しました。しかし、繰り返しますが、これらの主張は鵜呑みにしないことをお勧めします。

アリババは、汎用モデルに加えて、いくつかの数学およびコード最適化された LLM の重みもリリースし、GPT-4o および GPT-4o mini に匹敵するパフォーマンスを誇るとされる Qwen Plus および Qwen Turbo という 2 つの独自モデルへのアクセスを拡張しました。

12月には、OpenAI o1スタイルの「思考」モデル「QwQ」の詳細を発表しました。そして今週、Qwen 2.5 Maxのリリースに先立ち、クラウドプロバイダーである同社は、30億、70億、720億パラメータの3種類のオープンビジョン言語モデル(VLM)を発表しました。アリババは、これらのモデルのうち最大のものは、少なくともビジョンベンチマークにおいては、GoogleのGemini 2、OpenAIのGPT-4o、AnthropicのClaude 3.5 Sonnetといったモデルと競合できると主張しています。

それだけでは不十分だとすれば、今週アリババは70億および140億パラメータのQwen 2.5モデルのアップグレード版もリリースした。これによりコンテキストウィンドウ(基本的には短期記憶)が100万トークンにまで増強される。

より長いコンテキスト ウィンドウは、検索拡張生成 (RAG) に特に役立ち、モデルがドキュメントから大量の情報を失うことなく解析できるようになります。

  • 中国のDeepSeekがOpenAIのo1への無料挑戦者をリリースしました。PCでの使い方は次のとおりです。
  • より大きな AI データセンターを構築できなくなったらどうなるでしょうか?
  • 米国のAI株は、昨日のDeepSeekの暴落後、打撃を受けながらも持ちこたえている
  • DeepSeekはまだOpenAIとの連携を終えていない – 画像メーカーJanus ProはDALL-E 3を狙っている

疑問と懸念は残る

しかし、中国の模型メーカーが過去1週間にわたって享受してきたすべての誇大宣伝と、彼らが引き起こした市場の変動にもかかわらず、検閲とプライバシーに関する疑問と懸念は依然として残っている。

DeepSeekの事例で指摘したように、同社のオンラインサービスで収集されたユーザーデータは、同社のプライバシーポリシーに基づき、中国で保管されます。AlibabaのQwen Chatも同様で、シンガポールまたは中国のデータセンターにデータが保管される可能性があります。

これは一部の人にとっては大きな懸念事項かもしれませんが、他の人にとっては正当なリスクとなります。今週初めにXに投稿したOpenAIのAPI開発者、スティーブ・ハイデル氏は、「アメリカ人は無料のものを手に入れるために中国共産党にデータを渡すのが大好きなんだ」と皮肉を込めて述べました。

北京政権に不利な印象を与えかねない、物議を醸すトピックの検閲についても懸念が高まっています。過去の中国モデルと同様に、DeepSeekとAlibabaはどちらも、センシティブなトピックに関する情報を除外したり、生成を途中で停止したり、天安門事件や台湾の政治的地位といったトピックに関する質問への回答を完全に拒否したりしています。®

Discover More