OpenAIが新しいデータタイプを使用して推論コストを75%削減した方法

分析OpenAI の新しいオープンウェイトモデルが優れているかどうかはまだ議論の余地がありますが、MXFP4 と呼ばれる比較的新しいデータタイプを使用していることは、特に OpenAI のライバルの間で普及すれば、より重要になると言えます。

このフォーマットは、LLM で従来使用されてきたデータタイプと比較して、コンピューティングの大幅な節約を約束し、クラウドプロバイダーや企業がハードウェアの 4 分の 1 のみを使用して実行できるようにします。

MXFP4 っていったい何ですか?

MXFP4 について聞いたことがないのは、MXFP4 が開発されてからしばらく経ちますが、OpenAI の gpt-oss モデルがそれを利用した最初の主流の LLM の 1 つだからです。

ここから先はすぐにかなりマニアックな話になりますので、なぜそれが重要なのかというセクションにすぐにジャンプしたいとしても私たちは批判しません。

MXFP4は、Open Compute Project（OCP）によって定義された4ビット浮動小数点データ型です。OCPは、データセンターコンポーネントの低コスト化と入手しやすさの向上を目指し、2011年にFacebookが立ち上げたハイパースケーラー集団です。具体的には、MXFP4はマイクロスケーリングのブロック浮動小数点フォーマットであるため、FP4ではなくMXFP4という名称が付けられています。

このマイクロスケーリング機能は非常に重要です。FP4は単体ではそれほど多くの解像度を提供していないからです。わずか4ビット（符号ビット1つ、指数ビット2つ、仮数ビット1つ）で、正負それぞれ8つずつ、合計16種類の異なる値を表現できます。これは、65,536通りの値を表現できるBF16と比べると大きな差です。

これら 4 つの BF16 値 (0.0625、0.375、0.078125、0.25) を FP4 に直接変換すると、かなり積極的な丸めが行われるため、値は 0、0.5、0、0.5 になります。

MXFP4は巧妙な数学的処理により、はるかに広い範囲の値を表現できます。ここでMXデータ型のスケーリング機能が役立ちます。

MXデータ型の仕組みの基本的な概要は次のとおりです。

MXデータ型の仕組みの基本的な概要は次のとおりです - クリックして拡大

MXFP4の量子化は、高精度な値のブロック（デフォルトでは32）を8ビットのバイナリ指数形式の共通のスケーリング係数で乗算することで機能します。このアプローチを用いると、4つのBF16値は1、6、1.5、4になります。既にお気づきかもしれませんが、これは標準的なFP4に比べて大きな改善です。

これは FP8 の動作と似ていますが、スケーリング係数をテンソル全体に適用するのではなく、MXFP4 ではこれをテンソル内の小さなブロックに適用し、値間の粒度を大幅に高めることができます。

推論処理では、これらの数値は4ビット浮動小数点値の逆数にスケーリング係数を乗算することでオンザフライで逆量子化され、結果は0.0625、0.375、0.09375、0.25となります。丸め誤差は依然として発生しますが、それでも0、0.5、0、0.5よりも精度は高くなります。

MXFP4は、数あるマイクロスケールデータタイプの1つに過ぎないことに留意してください。MXFP6やMXFP8といったバージョンもあり、原理的には同様に機能します。

MXFP4が重要な理由

MXFP4が重要なのは、重みが小さいほど、モデルの実行に必要なVRAM、メモリ帯域幅、そして潜在的に計算量が少なくなるためです。言い換えれば、MXFP4はgenAIのコストを大幅に削減します。

どれくらい安くなるのでしょうか？それは基準によって異なります。BF16（現在LLMで最も一般的に使用されているデータ型）でトレーニングされたモデルと比較すると、MXFP4では計算量とメモリ要件が約75%削減されます。

「おおよそ」としたのは、現実的にはすべてのモデルの重みを量子化するわけではないからです。gpt-ossモデルカード[PDF]によると、OpenAIはモデルの重みの約90%にMXFP4量子化を適用したと述べています。これにより、わずか80GBのVRAMを搭載したGPUに1200億パラメータのモデルを、あるいはメモリがわずか16GBのGPUに200億パラメータのモデルを詰め込むことができました。

gpt-oss を MXFP4 に量子化することにより、LLM は、BF16 でトレーニングされた同等のサイズのモデルよりも 4 倍少ないメモリを占有するだけでなく、最大 4 倍高速にトークンを生成することもできます。

その一部はコンピューティング能力に依存します。一般的なルールとして、浮動小数点精度を半分に下げるごとに、チップの浮動小数点スループットは2倍になります。B200 SXMモジュール1つで、高密度BF16コンピューティングで約2.2ペタFLOPSの性能を発揮します。NVIDIAのBlackwellシリコンがハードウェアアクセラレーションを提供するFP4に落とすと、9ペタFLOPSにまで性能が上がります。

これによりスループットが若干向上するかもしれませんが、推論に関しては、FLOPS が増加すると、モデルが回答の生成を開始するまでの待機時間が短縮されることを意味します。

念のためお伝えしますが、MXFP4モデルを扱うためにハードウェアがネイティブFP4をサポートしている必要はありません。gpt-ossの学習に使用されたNvidiaのH100は、ネイティブFP4をサポートしていませんが、モデルは問題なく実行できます。ただ、すべてのデータタイプのメリットを享受できないというだけです。

OpenAIが方向性を示している

量子化は新しい概念ではありません。モデル開発者は、FP8や4ビット量子化バージョンのモデルをすでにリリースしています。

しかし、精度が低いということは本質的に品質の低下を伴うため、これらの量子化はしばしば妥協の産物とみなされます。その品質低下の程度は、数多くの量子化手法によって決まります。

とはいえ、16ビットから8ビットへの品質低下は、少なくともLLMに関しては、実質的にゼロであることが研究で繰り返し示されています。この精度でも、モデルが意図したとおりに動作するのに十分な情報量があります。実際、DeepSeekなどの一部のモデルビルダーは、この理由からFP8でネイティブにモデルの学習を開始しています。

MXFP4は標準FP4よりもはるかに優れていますが、必ずしも万能薬ではありません。NVIDIAは、このデータ型はFP8と比較して依然として性能低下の恐れがあると主張しています。これは、32値のブロックサイズが十分な粒度ではないことが一因です。この問題に対処するため、GPU大手のNVIDIAは独自のマイクロスケーリングデータ型「NVFP4」を導入しました。NVFP4は、16値のブロックとFP8のスケーリング係数を使用することで品質を向上させることを目的としています。

人間はAIよりも優れたコンテンツ監視者になれるが、コストは40倍かかる
OpenAIのGPT-5は幻覚を最大80%削減して登場
OpenAIの新しいモデルはトランプが大統領に復帰したことを信じられない
偉大なオネゴン州のウィリアム・H・ブルーゼン大統領に会いましょう

ただし、最終的には、クオンツを展開するか、元の BF16 リリースを維持するかを決定するのは、エンタープライズ、API、またはクラウドプロバイダー次第です。

gpt-ossでは、OpenAIがその選択をしました。モデルにはBF16版やFP8版はありません。MXFP4版しかありません。市場におけるOpenAIの圧倒的な地位を考えると、MXFP4で十分であれば、皆さんにも十分であるはずだと言っているようなものです。

これは、これらのモデルの提供を担うインフラプロバイダーにとって、間違いなく朗報です。特にクラウドプロバイダーは、顧客がリースしたリソースをどのように利用するかについて、あまり発言権がありません。MXFP4を採用するモデルビルダーが増えれば増えるほど、MXFP4が利用される可能性は高まります。

それまでは、OpenAI は、自社のオープンモデルが他のどのモデルよりも実行がはるかに簡単であることや、FP4 データタイプをネイティブにサポートする Nvidia や AMD の新しいチップをどのように活用できるかについて語ることができます。®

OpenAIが新しいデータタイプを使用して推論コストを75%削減した方法

Table of Contents

MXFP4 っていったい何ですか?

MXFP4が重要な理由

OpenAIが方向性を示している

Discover More

いやいや、習近平はそんなことしてない！中国のスパイ幹部がベルギーで手錠をかけられ、航空宇宙スヌープ容疑で米国に連行される

ファーウェイは、2024年に5.5Gネットワーク全体を出荷する準備ができていると主張している。

インドでWhatsApp？Facebookのプライバシーに関する調査、市民サイバー警察の免責、そして検閲批判

Table of Contents

MXFP4 っていったい何ですか?

MXFP4が重要な理由

OpenAIが方向性を示している

Smart Recommendations

Discover More