OpenAIのGPT-5はAIの進化というよりコスト削減に見える

分析OpenAI の新しいトップモデルは、誇張された主張ばかりだが、進歩というよりはむしろ計算コストを節約する方法であるように思われ、同社の最も熱心なユーザーにはあまり受け入れられていない。

生成型AI時代の旗手として、OpenAIは技術的な進歩を示すだけでなく、ビジネスの成長を示すことで数十億ドル規模の巨額の資金調達ラウンドを正当化しなければならないという大きなプレッシャーにさらされている。

OpenAIは、ユーザー基盤の拡大、価格の引き上げ、あるいはコスト削減のいずれかの選択肢を取ることができます。業界の多くは既に、OpenAIの月額20ドルと200ドルの価格帯に足並みを揃えています。そのため、OpenAIは他社にはない価値を提供しなければ、プレミアム価格を正当化できません。そうでなければ、AnthropicやGoogleといった競合他社に顧客を奪われるリスクがあります。

新学期が始まろうとしており、夏休み明けの学生たちが教室に戻るにつれ、OpenAIは新たなサブスクリプション契約を獲得するだろう。有料顧客の増加は収益の増加を意味する一方で、コンピューティングコストの上昇も意味する。

コスト削減の時代へ突入。

コスト削減の最も明確な証拠は、GPT-5が実際には1つのモデルではないという事実でしょう。少なくとも2つのモデルの集合体です。1つは軽量のLLMでほとんどのリクエストに迅速に対応でき、もう1つはより複雑なトピックに対応するように設計された高機能のLLMです。どのモデルのプロンプトが送られるかは、ルーターモデルによって決定されます。ルーターモデルは、プラットフォーム全体にとってインテリジェントなロードバランサーのような役割を果たします。画像プロンプトは全く異なるモデル、Image Gen 4oを使用します。

これはOpenAIのこれまでの運用方法からの転換です。これまで、PlusおよびProユーザーは使用するモデルを選択できました。GPT-4oなら簡単に処理できるような、ありふれた質問をしたいのであれば、そうすることも可能でした。

理論上、OpenAI のルーターモデルにより、GPT-5 のトラフィックの大部分を、より小型でリソースをあまり消費しないモデルで処理できるようになるはずです。

OpenAIが、プロンプトの複雑さに応じて推論のオン/オフをデフォルトで自動的に切り替えるという決定を下したことからも、コスト削減のさらなる証拠が見て取れます。フリーローダー、つまり無料ユーザー層は、自分でこれをオン/オフにすることができません。モデルの推論処理が少なければ少ないほど、生成されるトークンも少なくなり、運用コストも削減されます。

しかし、このアプローチはOpenAIの収益面ではよりスマートなものであるかもしれないが、モデル自体のスマート化にはそれほど貢献していないようだ。ローンチデーのレポートで述べたように、OpenAIのベンチマークは以前のモデルと比較して、比較的控えめな改善を示している。最も大きな改善は、ツール呼び出しと幻覚の抑制において見られた。

あなたの目はあなたを欺いていません、GPT-5はAIME 2025のような数学ベンチマークで反復的な改善のみを示しています

あなたの目はあなたを欺いていません、GPT-5はAIME 2025のような数学ベンチマークで反復的な改善のみを示しています - クリックして拡大

新しいシステムは、プロンプトを適切な言語モデルにリダイレクトするためにルーティングモデルに依存していますが、初期のフィードバックに基づくと、OpenAIにとってこれはそれほどうまく機能していません。アルトマン氏によると、リリース当日、GPT-5のルーティング機能は壊れており、モデルは実際よりも「はるかに愚か」に見えました。

おそらくこれが、GPT-5 が「Blueberry」には B が 1 つしかないと考えた理由です。現在、OpenAI はこのかなり恥ずかしい間違いを修正したようです。

しかし、GPT-5 のルーターは別のモデルなので、少なくとも同社はそれを改良することができます。

モデルの廃止

ルーターモデルはOpenAIの唯一のコスト削減策ではない。先週行われたAI大手の発表イベントで、幹部たちはGPT-5に非常に自信を持っているため、以前のモデルをすべて廃止することを明らかにした。

これはユーザーにはあまり受け入れられず、CEO のサム・アルトマン氏は後に、OpenAI が GPT-4o のようなモデルを削除することを選択したのは間違いだったと認めた。GPT-4o は推論能力が欠如しており、ベンチマークでは全体的にパフォーマンスが低いにもかかわらず、エンドユーザーや企業の間では非常に人気があるようだ。

「GPT-5の展開を追ってきた方なら、一部の人々が特定のAIモデルにどれほど強い愛着を持っているかに気づいているかもしれません。それは、人々が以前の種類のテクノロジーに抱いていた愛着とは異なり、強いものを感じます（そのため、ユーザーがワークフローで頼りにしていた古いモデルを突然廃止したのは間違いでした）」と彼は書いています。

それでも、扱うべきモデルが少ないということは、配分されるリソースが増えることを意味します。

OpenAI は内部（オープンソースではない）モデルに関する技術的な詳細をあまり公開していませんが、GPT-5 が開発者のオープンウェイトモデルである gpt-oss-20b や gpt-oss-120b に似ており、MXFP4 に量子化されている場合、OpenAI がこれらすべてのレガシー GPT を削除したいと考える十分な理由があります。

最近調査したように、このデータ型を使用すると、BF16 を使用する場合と比較して、LLM に必要なメモリ、帯域幅、コンピューティングを最大 75% 削減できます。

現時点では、OpenAI は有料ユーザー向けに GPT-4o を復元しましたが、このモデルの魅力とそれを GPT-5 に適用する方法を OpenAI が理解すれば、間違いなくそうするでしょう。

文脈の欠如

OpenAIはアーキテクチャの変更に加えて、GPT-5のコンテキストウィンドウ（長期記憶とも言える）を拡張しないことを選択しました。無料ユーザーは依然として8,000トークンのコンテキストに制限されており、PlusおよびProユーザーは128,000トークンに制限されています。

これをClaudeのProプランと比較してみましょう。AnthropicのProプランはOpenAIのPlusサブスクリプションとほぼ同価格で、20万トークンのコンテキストウィンドウを提供しています。GoogleのGeminiは最大100万トークンのコンテキストをサポートしています。

大きなコンテキストは大量のテキストの検索や要約に最適ですが、膨大なメモリを必要とします。OpenAIは、より小さなコンテキストにすることで、より少ないGPUでモデルを実行できます。

GPT-5 が従来のモデルよりも幻覚を最大 80% 低減するという OpenAI の主張が真実であれば、ユーザーはドキュメント検索のためにより大きなコンテキストウィンドウを望むと予想されます。

そうは言っても、長いコンテキストが重要な場合、OpenAI の API 経由で利用できる GPT-5 のバージョンは最大 400,000 トークンのコンテキストウィンドウをサポートしますが、実際にそれを利用したい場合にはかなりの費用を支払うことになります。

GPT-5 でコンテキストを 1 回入力するだけで約 50 セントかかりますが、モデルに大きなドキュメントを継続的に投入する予定の場合は、コストがすぐにかさむ可能性があります。

アルトマンは手を振る

アルトマン氏は、GPT-5 のデビュー以来、かなりのダメージコントロールを行ってきました。

GPT-4oの復活に加え、有料ユーザーはGPT-5の応答速度を自動、高速、思考の中から選択・調整できるようになりました。また、レート制限も週3,000メッセージに引き上げられました。

月曜日、アルトマン氏は今後数カ月間のOpenAIのコンピューティング資源の割り当て戦略を明らかにしたが、当然ながら有料顧客を優先することになる。

OpenAIのGPT-5は幻覚を最大80%削減して登場
OpenAIが新しいデータタイプを使用して推論コストを75%削減した方法
「突然古いモデルを廃止する」というユーザーの判断は「間違い」だったとOpenAIのアルトマン氏は認める
GPT-5はOpenAIで非常にうまく機能しており、「追加モデルを表示」スイッチが追加されました。

ChatGPTの顧客がリソースを確保すれば、少なくとも現在の割り当て容量まではAPIの利用が優先されるとアルトマン氏は述べている。「おおよそですが、この容量があれば、現状よりも約30%の新規API増加に対応できます」とアルトマン氏はXへの投稿で述べている。

OpenAIは、その後初めてChatGPTの無料枠の品質向上やAPI容量の拡張を検討するだろう。しかし、心配する必要はない。アルトマン氏の言うことを信じるなら、OpenAIは年末までに計算能力を2倍に増強するだろう。

「今後 5 か月でコンピューティングフリートを 2 倍に増やす予定なので、この状況は改善されるはずです」と彼は書いています。®

OpenAIのGPT-5はAIの進化というよりコスト削減に見える