水曜日に発表された Google の第7 世代 Tensor Processing Unit (TPU) が、クラウド カスタマー向けに 256 個または 9,216 個のチップのポッドでレンタル可能になります。
チョコレートファクトリーは、自社製の AI アクセラレータ 9,216 個を搭載したポッドは、世界で最も強力なスーパーコンピュータとして知られるアメリカの El Capitan の 24 倍の計算能力、つまり 1.7 エクサフロップスに対して 42.5 エクサフロップスを実現すると、大胆にも述べています。
一見すると印象的かもしれませんが、Googleのマーケティングチームはここでかなり重要な詳細を省略しています。ピーク性能42.5エクサFLOPSはFP8精度で計算された数値ですが、El CapはHPC中心のLINPACKベンチマークでFP64で1.74エクサFLOPSを達成しました。El Capの理論上のピーク性能は、実際にはFP64で2.74エクサFLOPSに近い値です。
AMD搭載HPE-Cray Superの理論上のピーク性能は、FP8に正規化すると、高密度ワークロードでは87エクサFLOPS強、低密度ワークロードではその2倍になります。Googleのマーケティングでは、FP8の42.5エクサFLOPSをFP64の1.74エクサFLOPSと比較していますが、実際には42.5エクサFLOPS対少なくとも87エクサFLOPSであるべきであり、El Capitanは9,216TPUのv7ポッドをはるかに上回っていることになります。24倍という主張は、私たちには納得できません。
Googleに問い合わせたところ、広報担当者は、クラウドの巨人である同社は、El Capitanで利用可能な現時点で最良の数値を比較しただけだと説明しました。あえて言えば、Gemini AIなら誇りに思うでしょう。
「El Capitan の持続的な FP8 パフォーマンスに関する情報はありません」と言われました。
「この比較の背後にある私たちの仮定は、El Capitan が AI にも焦点を置いていることから、AI ワークロードのピーク時のコンピューティング能力において最高の数値を示したというものです。
El Capitan は FP8 をサポートできるかもしれませんが、持続的なパフォーマンスに関する追加データがなければ比較することはできません。精度を下げてもピークパフォーマンスが線形に向上すると自動的に想定することはできません。さらに、Ironwood は単一のポッドから 400,000 チップ、つまり 43 個の TPU v7x ポッドまで拡張可能であり、高速な Jupiter データセンター ネットワークを介して接続できます。
こうした比較はさておき、コードネーム Ironwood と呼ばれる Google の最新の TPU は、昨年の Trillium パーツに比べて大幅にアップグレードされています。
ボードあたり4つのチップを搭載したGoogleのTPU v7を見てみましょう...クリックして拡大
大規模言語モデル(LLM)推論を念頭に設計された各TPUは、最大192GBの高帯域幅メモリ(HBM)を搭載し、7.2TB/秒から7.4TB/秒の帯域幅を実現します。Googleの発表では、テキストとグラフィックの両方で引用されています。
以前議論したように、メモリ帯域幅は推論ワークロードにおける主要なボトルネックです。メモリ容量が大きいということは、チップがより大きなモデルに対応できることを意味します。浮動小数点演算性能に関して言えば、Googleは液冷式TPU v7 1基あたり4.6ペタFLOPSの高密度FP8演算能力を誇っています。これは、NVIDIAのBlackwell B200とほぼ同等の性能です。
Ironwood には、同名のテンソル処理エンジンに加え、ランキングやレコメンデーション システムで一般的な「超大規模埋め込み」を高速化するように設計された Google の SparseCore が搭載されています。
- MediatekはChromebookをCopilot+ PCに近づけたいと考えている
- ライトマターは早ければ夏にもチップツーチップ光ハイウェイを出荷する準備が整ったと発表した。
- エヌビディアの挑戦者セレブラスは、IPOに向けて中東の資金調達のハードルを乗り越えたと発表
- Nvidia GPUロードマップがそれを裏付ける:ムーアの法則は既に消滅した
The Next Platformでさらに詳しく説明されているこのチップは、今年後半に一般販売される予定です。
これらのポッドを構築するために、各 TPU には専用のチップ間相互接続 (ICI) が装備されており、Google によれば、リンクあたり 1.2 テラビット/秒の双方向帯域幅が可能で、これは Trillium の 1.5 倍の向上です。
Googleによると、提供される2つのポッドのうち大きい方のポッドは、フルロード時に約10メガワットを消費します。GoogleはチップあたりのTDPを明らかにしていませんが、これは同レベルのGPUで観測される700Wから1kWの範囲にあることを示唆しています。これはかなりの電力消費量に聞こえるかもしれませんが、Googleは、これらのパーツは2015年に発表された最初のTPUと比較して30倍の効率性を備えており、昨年のチップと比較してワットあたりの性能は2倍であることを強調しています。®