アリババはQwen3のハイブリッド思考モードが愚かだったことを認める

アリババのQwen 3ファミリーモデルが4月に発売されたとき、その目玉機能の1つは、「思考」モードと「非思考」モードをリアルタイムで切り替えられる機能だった。

便利ではあるが、その機能には品質の低下とベンチマークでのパフォーマンスの低下という代償が伴うようだ。

「コミュニティと話し合い、熟考した結果、ハイブリッド思考モードの使用をやめることにしました。代わりに、InstructモデルとThinkingモデルを別々にトレーニングすることで、可能な限り最高の品質を実現します」とQwenチームは最近のX投稿で説明しました。「現時点では、統合よりも高品質なパフォーマンスを提供することの方が重要だと考えています。」

これに対処するため、Qwen チームは、推論、問題解決、数学、コーディング、一般知識の大幅な向上を主張するモデルの専用指導および思考調整バージョンを展開し始めました。

ハイブリッド「思考」モードを廃止したことにより、アリババのリフレッシュされたQwen3モデルは、4月の最初のリリースよりも大幅にパフォーマンスが向上しました。

ハイブリッド「思考」モードを廃止することで、アリババのリフレッシュされたQwen3モデルは、4月にリリースされたオリジナルよりも大幅に優れたパフォーマンスを発揮するようになりました - クリックして拡大

アリババの非思考型命令モデルの改善は特に顕著でした。AIME25数学ベンチマークでは、アリババのQwen3-235B-A22B-Instruct-2507モデルが4月のリリースと比較して2.8倍の差を縮めました。7月に更新された、より小規模な300億パラメータのエキスパート混合モデル（MoE）も同様の向上を達成しました。

7 月の Qwen3-30B-A3B のリフレッシュでも、非思考タスクで同様の向上が見られました。

7月に更新されたQwen3-30B-A3Bでも、非思考タスクで同様の改善が見られました。 - クリックして拡大

興味深いことに、アリババの新しい思考調整モデルのパフォーマンス向上は、それほど顕著ではありませんでした。アリババによると、Qwen3-235B-A22B-Thinkingは、数学重視のAIME25 Humanity's Last Examベンチマークにおいて、それぞれ13%から54%のスコア向上を記録しました。

アリババの専用思考モデルはオリジナルのQwen 3リリースよりもパフォーマンスが優れているが、その改善は非思考バージョンで見たほど顕著ではない。

Alibabaの専用思考モデルは、オリジナルのQwen 3リリースよりもパフォーマンスが優れていますが、その改善は、思考しないバージョンで見たほど顕著ではありません - クリックして拡大

ベンダーが提供するベンチマークと同様に、これらのパフォーマンスに関する主張は鵜呑みにせず、これらのモデルを本番環境に導入する予定がある場合は、独自の特定のユースケースに照らして評価することをお勧めします。

よりスマートになったことに加え、Alibaba の 2507 リリースでは、モデルのコンテキストウィンドウ (短期メモリと考えることができます) が、わずか 32,000 トークンから 256,000 トークンに増加しました。

大きなコンテキストウィンドウは、最終的な答えに到達するまでに数百、あるいは数千語ものテキストを生成する可能性のある「思考」モデルにとって特に重要です。大きなコンテキストウィンドウは、モデルがより大きな文書、プロンプト、または会話を追跡できるだけでなく、より長い時間思考できることも意味します。

Alibaba は、この点を最大限に活用するためにモデルの思考予算を拡張し、管理するのに十分なメモリがある場合はコンテキストの長さを少なくとも 128,000 トークンに設定することをユーザーに推奨しました。

ザッカーバーグは「超知能」をすべての人にもたらすという話でAIへの投資を正当化しようとしている
Ciscoは、AIエージェントがスムーズにインタラクトできるようになることを期待して、AgntcyプロジェクトをLinux Foundationに寄付しました。
HuaweiのラックスケールのブギーマンとNvidiaの最高のものを比較
米国の政府機関は2024年にGenAIのユースケースを9倍近く記録するが、導入は停滞している

本稿執筆時点では、Qwen チームは、2,350 億および 300 億のパラメータを持つモデルの指示および思考調整バージョン (名前に含まれる日付コード 2507 で識別可能) をリリースしており、近日中に Qwen3 モデルの更新バージョンを展開する予定です。

Qwen チームのモデル開発者の 1 人である Junyang Lin 氏は、早ければ木曜日にもリリースされる可能性がある 30B パラメータの MoE モデルのコード調整バージョンも公開しました。

過去のリリースと同様に、モデルはネイティブ BF16 と量子化された FP8 データ型の両方で利用可能になり、Qwen が 4 ビット AWQ 量子も利用できるようになるまでにはそれほど時間がかからないと予想されます。

アリババはQwen3のオリジナルリリースのようなハイブリッド思考モデルのアイデアからは一歩後退しているかもしれないが、チームはそのアイデアを完全に諦めたわけではない。「ハイブリッド思考モードの研究は引き続き継続しています」とチームは記しており、品質問題が解決されれば、この機能が将来のモデルに再び搭載される可能性を示唆している。

アリババはQwen3のハイブリッド思考モードが愚かだったことを認める

Table of Contents

Discover More

サイバーセキュリティにおいては文化が最優先です。つまり、サイバーセキュリティは文化戦争の最前線に立つのです。

ボクスホールVXR8：タンゴを踊った時、あなたはわかる

フォートノックスの軍警察、ソーラーパトロールカートに嫌悪感

Table of Contents

Smart Recommendations

Discover More