機械学習のパフォーマンスをめぐるインテルとNvidiaの対立が一段と激化しており、GPUの巨人は、誤解を招くベンチマーク結果を広めているとしてChipzillaを非難している。
インテルは、自社の64ビットx86チップがニューラルネットワークの数値計算タスクにおいてNVIDIAのチップよりも優れていると主張し、ディープラーニング分野でNVIDIAを追い抜こうと躍起になっている。この両社の激しい攻防は先週、インテルが自社の最上位2ソケットXeon Platinum 9282データセンタープロセッサが、物体認識などのコンピュータービジョンワークロードの中核で使用されている人気の畳み込みニューラルネットワークであるResNet-50の実行において、NVIDIAのTesla V100 GPUよりも高速であると自慢したことで、激しい論争へと発展した。
当時説明したように、この比較はむしろリンゴとナシを比較するようなものでした。そして今、NVIDIAは皮肉たっぷりのブログ記事で反撃しました。
「世界をリードするテクノロジー企業が自社製品のメリットを強調してくれるなんて、そうそうあることではありません」と、NVIDIAの製品マーケティングディレクター、パレシュ・カリヤ氏は反撃記事の中で笑った。「インテルは先週、まさにそれを行いました。自社の最も高価なCPU2機種の推論性能をNVIDIAのGPUと比較したのです。」
そして、インテルのEpycへの回答は次のとおりです。最大56コア、4GHz 14nm第2世代Xeon SPチップ、Agilex FPGA、永続メモリ
続きを読む
Intelは、同社のハイエンドプロセッサはResNet-50モデルで毎秒7,878枚の画像を処理できると主張しています。つまり、2ソケットのXeonは、NVIDIAのTesla V100の毎秒7,844枚、そしてより新しいT4チップの毎秒4,944枚よりもわずかに高速です。ただし、Intelはこれらの画像に対する推論をINT8精度(8ビット整数)で実行しており、これはNVIDIAのFP16とFP32の混合精度よりも低いため、Xeonの演算量ははるかに少ないことになります。
したがって、これは不公平な比較だとNvidiaは主張した。Intelもまた、自社の高性能Xeon Platinum 9282プロセッサ2個を、Tesla V100とT4のそれぞれ1個と比較した。さらに、9282はまだ発売されたばかりで、まだ顧客の手元に届いていないのに対し、V100とT4はそれぞれ2017年と2018年に発売されている。入手不可能なシリコンと入手可能なシリコンの比較だ。
また、エネルギー効率やプロセッサあたりのパフォーマンスといった他の特性で見ると、NVIDIAのTesla V100とT4の方が優れているとNVIDIAは反論した。2ソケットのXeon Platinum 9282プロセッサは1ワットあたり10イメージ/秒の処理速度だったのに対し、V100は1ワットあたり22イメージ/秒、T4はさらに効率が高く、1ワットあたり71イメージ/秒だった。
インテルはプロセッサ当たりのパフォーマンスでも 3,939 画像/秒と低いスコアを記録した。一方、Nvidia は、同社の V100 が 7,844 画像/秒でこのスコアに勝利し、T4 は 4,944 画像/秒を処理できると述べている。
Xeon Platinum 9282の推定価格(チップ単体で最大5万ドル)が正しければ、これらはより安価な選択肢でもあります。一方、Tesla V100単体はAmazonで5,999ドルで購入でき、T4はさらに安く、1個3,000ドル以下で購入できます。
さらに悪化する
Nvidiaはさらに一歩踏み込み、Intelへの攻撃を再開した。ResNet-50は2500万パラメータしかない小さなものだ。なぜ3億4000万パラメータの言語モデルBERTをベンチマークにしないのか?
Googleの狡猾なAI言語学者、.milにMLスキルを叩き込むアンクルサム、Intelの疑わしいCPUの主張
続きを読む
「AIモデルの複雑さを測る指標は、パラメータの数です」とNVIDIAのKharya氏は指摘する。「AIモデルにおけるパラメータとは、モデルが学習した情報を格納する変数です。BERTのような高度なモデルでは、単一のNVIDIA T4 GPUはデュアルソケットCPUサーバーよりも56倍高速で、電力効率は240倍優れています。」
明らかに、これはすべて報復的なマーケティングの誇大宣伝です。前述のNvidiaのBERT比較では、Kharya氏はIntelのXeon Gold 6240 2基をT4 GPUと比較しましたが、Xeon Platinum 9282をT4 GPUと比較したわけではありません。Xeon Gold 6240は推論を実行するのに最適なx86プロセッサではなく、CPUコア数も9282の56個に対して18個しかありません。
TDPの数値は次のとおりです。2ソケットのXeon Gold 6240は300ワットを消費しますが、NvidiaのT4は70ワットです。また、Xeon Gold 6240のエネルギー効率は1ワットあたり0.007センテンスであるのに対し、T4は1ワットあたり1.7センテンスです。
Nvidiaはさらなる弱点を指摘し、もう一つの比較対象として、ニューラル協調フィルタリング(NCF)と呼ばれるレコメンデーションシステムを挙げた。同社によると、T4 GPUはCPUに比べてパフォーマンスが12倍、消費電力は24倍に上るという。
Xeon Gold 6410 単体のプロセッサTDPは150ワットで、T4の70ワットの2倍以上です。パフォーマンス効率も1ワットあたり19サンプル/秒と低く、T4は1ワットあたり397サンプル/秒です。
「汎用インテル Xeon CPU で実現できる卓越した AI ワークロード性能について、お客様とエコシステムに知っていただきたいと考えています」と、インテルは火曜日の夜、 The Register宛てのメールで、NVIDIA の挑発に対し、あまり機敏ではない反論を述べた。「汎用アーキテクチャが、ディープラーニングのような重要なワークロードを含む、非常に多くのワークロードで高いパフォーマンスを発揮できることは、私たちにとって非常に喜ばしいことです。」®