AIの台頭でチップ市場が活性化、AMD InstinctやCloudy SiliconがNvidiaのシェアを争う

Omdiaの推計によると、Nvidiaは2024年にAI分野を独占し、同社のHopper GPUの出荷数は12大顧客の間で3倍以上に増加して200万台を超えた。

NvidiaはAIインフラの巨人としての地位を維持しているものの、ライバルであるAMDとの競争はかつてないほど激化しています。Instinct MI300シリーズGPUの初期導入企業の中で、AMDは急速にシェアを伸ばしています。

Omdiaの推計によると、Microsoftは2024年に約58万1000台のGPUを購入したとされており、これは世界のクラウドおよびハイパースケール顧客の中で最大の規模です。そのうち6台に1台はAMD製です。

Omdiaの調査によると、わずか1年ほどしか経っていないアクセラレータを最も積極的に採用しているMetaでは、AMDがGPU出荷台数17万3000台で全体の43%を占め、NVIDIAは22万4000台だった。一方、データベース大手のOracleでは、AMDはGPU出荷台数16万3000台のうち23%を占めた。

Nvidiaは2024年もAIハードウェアの主要サプライヤーであり続けた。クレジット：Omdia

Nvidiaは2024年もAIハードウェアの主要サプライヤーであり続けた。クレジット：Omdia – クリックして拡大

Microsoft や Meta などの主要顧客の間でシェアが拡大しているにもかかわらず、AMD の GPU 市場全体におけるシェアは、Nvidia の次には比較的小さいままです。

Omdiaの推計では、Microsoft、Meta、Oracle、GPUベンダーのTensorWaveの4つのベンダーにわたるMI300Xの出荷台数を追跡しており、その合計は327,000台だった。

AMDのMI300Xの出荷台数は2024年もNvidiaの出荷台数に比べて僅かにとどまった。クレジット：Omdia

AMDのMI300Xの出荷台数は、2024年時点でNvidiaの出荷台数に比べてごくわずかだった。クレジット：Omdia – クリックして拡大

AMDの急成長は、MI300シリーズアクセラレータが市場に登場してからまだ1年しか経っていないにもかかわらず、注目に値します。それ以前は、AMDのGPUは主に、オークリッジ国立研究所（ORNL）の1.35エクサフロップス・スーパーコンピュータ「Frontier」のような、より従来型の高性能コンピューティング・アプリケーションで使用されていました。

「彼らは昨年、HPC分野でGPUの有効性を証明することに成功し、それが功を奏したと思います」と、Omdiaのクラウド・データセンター担当リサーチディレクター、ウラジミール・ガラボフ氏はThe Registerに語った。「Nvidiaの代替品を求める声は確かにあったと思います。」

なぜ AMD なのか?

この需要のどの程度がNVIDIAハードウェアの供給不足によるものかは定かではないが、少なくとも理論上は、AMDのMI300Xアクセラレータには多くの利点がある。1年前に発表されたMI300Xは、AIワークロードにおける浮動小数点演算性能が1.3倍、メモリ帯域幅が60%向上し、メモリ容量が2.4倍に向上したと謳われている。

最後の 2 つの点により、このパーツは推論ワークロードにとって特に魅力的になります。推論ワークロードのパフォーマンスは、GPU がどれだけの FLOPS を処理できるかではなく、メモリの量と速度によって決まることが多いからです。

一般的に、今日のAIモデルのほとんどは16ビット精度でトレーニングされており、実行するには10億パラメータごとに約2GBのvRAMが必要です。GPUあたり192GBのHBM3を搭載しているため、1台のサーバーで1.5TBのvRAMを誇ります。つまり、MetaのLlama 3.1 405Bフロンティアモデルのような大規模なモデルを1ノードで実行できるということです。一方、同様の性能を持つH100ノードでは、モデルをフル解像度で実行するために必要なメモリが不足しています。141GBのH200にはこの制限はありませんが、MI300Xの大きな特徴は容量だけではありません。

MI300Xは5.3TBpsのメモリ帯域幅を誇り、H100は3.3TBps、141GBのH200は4.8TBpsです。これらを合わせると、MI300Xは理論上、NvidiaのHopper GPUよりも大規模なモデルを高速に処理できるはずです。

顧客への提供が始まったばかりのNvidiaのBlackwellがパフォーマンスとメモリ帯域幅でリードしているにもかかわらず、AMDの新しいMI325XはGPUあたり256GBという容量で依然として優位に立っています。来年末にリリース予定のより強力なMI355Xでは、この容量は288GBにまで拡大されます。

そのため、数千億、あるいは数兆ものパラメータを測定する大規模な最先端モデルを展開している Microsoft と Meta が、AMD のアクセラレータに注目したのは当然のことです。

ガラボフ氏によると、これはAMDのガイダンスに反映されており、四半期ごとに着実に上方修正されている。第3四半期時点で、AMDはInstinctが2024年度に50億ドルの売上高を生み出すと予想している。

新年を迎え、ガラボフ氏はAMDがシェアをさらに拡大するチャンスがあると考えている。「AMDは実行力に優れています。顧客とのコミュニケーションも良好で、自社の強みと弱みを透明性を持って伝えるのが得意です」と同氏は述べた。

潜在的な推進力の一つは、年間数万基のアクセラレーターを導入しているCoreWeaveのようなGPUビットバーンの台頭だ。「こうした企業の中には、意図的にNVIDIAの代替となるビジネスモデルを構築しようとするところもあるだろう」とガラボフ氏は述べ、その一例としてTensorWaveを挙げた。

カスタムシリコンが本格化

NVIDIAの帝国を侵食しているのはAMDだけではない。クラウドやハイパースケーラーが大量のGPUを購入する一方で、多くの企業が独自のカスタムAIシリコンを導入している。

クラウドプロバイダーは2024年に大量のカスタムAIシリコンを導入しましたが、これらの部品のすべてがジェネレーションAI向けに設計されているわけではないことを覚えておくことが重要です。クレジット：Omdia

クラウドプロバイダーは2024年に大量のカスタムAIシリコンを導入しましたが、これらの部品のすべてがGenAI向けに設計されているわけではないことを覚えておくことが重要です。出典：Omdia – クリックして拡大

Omdiaは、今年初めに詳しく取り上げたMetaのカスタムMTIAアクセラレータの出荷数が2024年に150万台を超えると推定しており、Amazonは90万個のInferentiaチップを発注した。

これがNVIDIAにとって課題となるかどうかは、ワークロードに大きく左右されます。なぜなら、これらのパーツは、広告とユーザー、商品と購入者をマッチングさせるレコメンデーションシステムといった、より従来的な機械学習タスクを実行するように設計されているからです。

Inferentia と MTIA は LLM を念頭に置いて設計されたわけではないかもしれませんが、Google の TPU は確かに LLM を念頭に置いて設計されており、独自の Gemini モデルとオープンな Gemma モデルの両方を含む、この検索大手の多くの言語モデルのトレーニングに使用されてきました。

Omdia の推測によれば、Google は今年、約 100 万個の TPU v5e アクセラレータと 48 万個の TPU v5p アクセラレータを発注した。

Inferentiaに加えて、AWSはTrainiumチップも提供しています。これは、その名前にもかかわらず、トレーニングと推論の両方のワークロード向けに再調整されています。Omdiaは、Amazonが2024年にこれらの部品を約36万6000個発注すると見積もっています。これは、モデルビルダーのAnthropicに2025年に「数十万個」のTrainium2アクセラレータを提供するProject Rainierの計画と一致しています。

最後に、AMDがMI300Xを発表する直前に初めて発表されたMicrosoftのMAIAパーツがあります。Trainiumと同様に、これらのパーツは推論と学習の両方に最適化されており、OpenAIの主要なハードウェアパートナーであり、自らもモデルビルダーとして、Microsoftが推論と学習の両方に積極的に取り組んでいることは明らかです。Omdiaは、Microsoftが2024年にこれらのパーツを約19万8000個発注したと推定しています。

数百万のGPUクラスター、ギガワットの電力 - AIの規模は論理を無視している
ヒューマノイドロボットが近々登場、最初は遠隔操作で
科学者がAIモデルを騙して秘密を漏らす
Nvidia の CUDA の堀は実際どれくらい深いのでしょうか?

AI市場はハードウェアよりも大きい

過去2年間のNvidiaの驚異的な収益増加により、当然ながらAIを支えるインフラに注目が集まっているが、それははるかに大きなパズルの1ピースに過ぎない。

Omdiaは、AMD、Intel、クラウドサービスプロバイダーが代替ハードウェアやサービスを推進する中で、Nvidiaが今後1年間、AIサーバー市場でのシェア拡大に苦戦するだろうと予想している。

「インテルから学んだことがあるとすれば、シェアが90%を超えると、それ以上成長し続けることは不可能だ。人々はすぐに代替品を探すだろう」とガラボフ氏は述べた。

しかし、ガラボフ氏は、ますます競争が激化する市場でシェアを争うのではなく、NVIDIA はテクノロジーをよりアクセスしやすいものにすることで、対象市場全体の拡大に注力するのではないかと見ている。

複雑な AI システムを構築するためのパズルのピースのように機能するように設計されたコンテナ化されたモデルである Nvidia Inference Microservices (NIM) の導入は、この転換の一例にすぎません。

「これはスティーブ・ジョブズの戦略です。スマートフォンを成功させたのはApp Storeです。App Storeのおかげでテクノロジーを簡単に利用できるからです」とガラボフ氏はNIMについて語った。「AIでも同じです。App Storeを作れば、人々はアプリをダウンロードして使うようになります。」

とはいえ、NVIDIAは依然としてハードウェアに注力しています。クラウドプロバイダー、ハイパースケーラー、GPUビットベンダーは既に、NVIDIAの強力な新Blackwellアクセラレータをベースにした大規模クラスターを発表しており、少なくともパフォーマンス面では、AMDやIntelが現在提供しているどの製品よりもはるかに優れています。

一方、NVIDIAは、年間を通して新チップを投入することで優位性を維持するため、製品ロードマップを加速させています。NVIDIAは今後も競合他社との厳しい競争に直面するものの、近い将来に王座を失うリスクは低いようです。®

AIの台頭でチップ市場が活性化、AMD InstinctやCloudy SiliconがNvidiaのシェアを争う