インテルのビジョンインテルは、さまざまな目的向けに構築された多様なシリコン ポートフォリオに重点を置いた戦略により、加速コンピューティング分野で GPU 大手の Nvidia に対抗する取り組みを強化しています。
AIチップのスタートアップ企業Habana Labsを20億ドルで買収してから2年以上が経ち、Intelのディープラーニング部門は、学習用Gaudi2と推論用Grecoという2つの新しいチップを発表しました。x86の巨人であるIntelは、少なくとも自社のベンチマークテストによると、学習用Gaudi2はNVIDIAの2年前のA100 GPUを性能面で凌駕すると主張しています。
Habana社の第2世代ディープラーニングチップは、火曜日にテキサス州グレイプバインで開催されたIntel VisionイベントでIntelが発表した複数の発表の一つでした。Intelはまた、第3四半期にシステムに搭載される予定の、多目的かつメディアに特化したArctic Sound-MサーバーGPUの新たな詳細も発表しました。
Gaudi2は本日発売され、HabanaのGoyaチップの後継であるGrecoは今年後半に顧客へのサンプル出荷が予定されている。
Intelは、両チップがAI/MLを検討している企業の参入障壁を下げることを目指した「高性能、高効率のディープラーニングコンピューティングの選択肢」によって、トレーニングと推論の分野におけるギャップに対処していると主張している。
Gaudi2は遅すぎますか?
Gaudi2は7nmプロセスで製造されており、Gaudiの16nmプロセスからノード数が大幅に向上しています。24個のTensorプロセッサコアと96GBのHBM2e高帯域幅メモリを搭載し、コア数とHBM2メモリ容量は前世代機の3倍に増加しています。メモリ帯域幅も2.45TB/sとほぼ3倍に向上し、SRAMは48MBに倍増しました。スループットも大幅に向上し、ネットワーク容量は初代Gaudiの100GbEポート10個から24個の100GbEポートに拡張されました。
しかし、これにはエネルギーコストがかかり、Gaudi2 の熱設計電力 (TDP) は最大 600 ワットであるのに対し、Gaudi は 350 ワットです。
これだけの熱と引き換えに、Intel は、同じく 7nm プロセッサで作られているものの、最大 80GB の HBM2e メモリしかサポートしていない Nvidia の A100 に対して、パフォーマンスが大幅に向上したと主張しています。
Intel によると、社内ベンチマークでは、80GB の A100 と比較して、Gaudi 2 は ResNet-50 画像分類モデルのトレーニングで 1.9 倍高速、BERT 自然言語処理モデルの最初の 2 フェーズで 2 倍高速であることがわかったという。
ResNet-50 のトレーニング パフォーマンスについて、Intel の Habana Gaudi2 と Nvidia の A100 を含む他のチップを比較したグラフ。(クリックして拡大します。)
IntelはVisionイベントで注目を集めていますが、NVIDIAは第3四半期にA100の後継機となるH100を発売する予定であり、このGPUは80GBのHBM3メモリと最大3TBpsのメモリ帯域幅を備えています。NVIDIAはH100のワット当たり性能がA100の3倍であると主張していますが、Gaudi 2がそれに追いつくことができるかどうかは大きな疑問です。
NVIDIAといえば、GPU大手である同社がここ数年でAIシステムソフトウェアに多額の投資を行ってきたため、追いつくのは困難だ。一方、Intelは、TensorFlowとPyTorchフレームワークをサポートし、「最小限のコード変更」で動作するSynapseAIソフトウェアスイートを使用することで、Gaudiプロセッサ上でディープラーニングモデルを学習できると述べている。
サーバーメーカーの Supermicro は、新しい Supermicro X12 Gaudi2 トレーニング サーバーを介して Gaudi2 のシステム サポートを最初に提供し、このトレーニング チップは、DDN の AI400X2 ストレージ システムを介してストレージ サポートも取得しています。
Gaudi2 は、第 1 世代のトレーニング チップが昨年 10 月に Amazon Web Services が提供するクラウド インスタンスでデビューしてから間もなく登場します。
もちろん、Gaudi の初期のテストケースは限られていますが、Intel は自社の Mobileye 事業部門内での展開を指摘しています。
- インテルのゲルシンガー氏は「我々は必ず立ち直る」と語り、「心配しないで、我々のチップのほとんどは2023年に我々が製造することになる」と付け加えた。
- 時間はどんどん遅くなり、敵は門に迫っています...しかし、インテルの追放された後継者は救出に向かうことができるでしょうか?
- インテルは AI アクセラレーションで非常に好調で、ニューラルネット チップの新興企業に 20 億ドルを投じました (3 度目の正直)
- インテルは次世代IPUにFPGAとASICを採用
Mobileye の幹部である Gaby Hayon 氏は、同部門の複数のチームがクラウドまたはオンプレミスで Gaudi を使用しており、「モデルの種類を問わず、既存の GPU ベースのインスタンスに比べて一貫して大幅なコスト削減が実現しており、既存モデルの市場投入までの時間を大幅に短縮したり、Gaudi の利点を活用することを目的としたはるかに大規模で複雑なモデルをトレーニングしたりすることが可能になっています」と述べています。
Gaudi を保証しているインテル以外の企業は、バージニア州レストンに拠点を置くバイオメディカル研究会社 Leidos です。同社は、AWS の Gaudi 搭載 DL1 インスタンスを使用した X 線スキャン用モデルのトレーニングでは、Nvidia の 5 年前の V100 GPU を搭載した p3dn.24xlarge インスタンスと比較して 60% 以上のコスト削減が見られたと述べています。
Greco推論チップとArctic Sound-M GPUが発表
インテルは今年後半、異なる種類の加速コンピューティング向けのチップをさらに 2 つ発表する予定で、Habana の Greco 推論チップは今年後半に顧客へのサンプル提供が開始され、多目的 Arctic Sound-M サーバー GPU は第 3 四半期に発売される予定です。
Gaudi2と同様に、Grecoも前世代の16nmプロセスから7nmプロセスに移行しています。メモリ容量は第1世代チップと同じ16GBですが、GrecoはGoyaのDDR4からLPDDR5に移行し、メモリ帯域幅が40GB/秒から204GB/秒へと大幅に向上しています。
Gaudi2とは異なり、Grecoは小型化しており、GoyaのデュアルスロットPCIeフォームファクタから、シングルスロットのハーフハイト、ハーフレングスのPCIeフォームファクタに移行しています。また、消費電力も少なく、熱設計電力は第1世代チップの200ワットに対して75ワットです。
インテルのアクセラレーテッド・コンピューティング・プラットフォームは勢いを増し始めています。例えば、Intel Visionでは、クラウドゲーム、メディア処理、仮想デスクトップ・インフラストラクチャ、推論向けに最適化された「超フレキシブル」なサーバーGPU「Arctic Sound-M」も発表されました。このサーバーGPUはPCIe Gen 4カードで提供され、シスコ、デル・テクノロジーズ、ヒューレット・パッカード・エンタープライズ、Supermicro、Inspur、H3Cの15以上のシステムに搭載される予定です。
Arctic Sound-M は、PC 向けの Intel の新しい Arc ディスクリート GPU と同じ Xe HPG マイクロアーキテクチャを採用しており、サーバー GPU には最大 4 つの Xe メディア エンジン、最大 32 個の Xe コアとレイ トレーシング ユニット、XMX Matrix Engine による AI アクセラレーション、および Intel によるとサーバー GPU としては業界初となる AV1 ビデオ エンコードおよびデコード用のハードウェア アクセラレーションなど、同様の機能が搭載されています。
チップメーカーによると、これらの仕様により、ビデオトランスコーディング用の 30 以上の 1080p ストリーム、クラウドゲーム用の 40 以上のゲームストリーム、仮想デスクトップインフラストラクチャ用の最大 62 の仮想化機能、およびメディア AI 分析用の 1 秒あたり最大 150 テラオペレーションがサポートされるという。
Intel は、Arctic Sound-M サーバー GPU を、最大ピーク性能向けの 150 ワットと高密度の多目的用途向けの 75 ワットの 2 種類の電力エンベロープで提供します。
Intel は、Greco チップと Arctic Sound-M チップのいずれについても競合比較を提供しなかった。
Intel は今年後半にも AI および高性能コンピューティング ワークロード向けの Ponte Vecchio GPU をリリースする予定であるため、Intel の GPU と Habana ディープラーニング チップが同社のポートフォリオに重複しすぎているのではないかと疑問に思う人もいるかもしれません。
記者との事前説明会で、ハバナ・ラボのCOOエイタン・メディナ氏は、インテルがデータセンターのAI用途向けにCPU、GPU、ディープラーニングチップを提供しているのは、「さまざまな顧客がさまざまなサーバーにさまざまなアプリケーションの組み合わせを使用している」ためだと説明した。
例えば、メディナ氏によると、IntelのXeonサーバーCPUは、データの前処理、推論、そして幅広いアプリケーションを同一サーバー内で実行するのに最適であり、IntelのGPUはAI、HPC、グラフィックスのワークロードが混在するサーバーに適しています。一方、Habanaのチップは、主にディープラーニングのワークロードに使用されるサーバー向けに設計されています。
インテルは、この戦略によって、急成長しているNVIDIAのアクセラレーテッドコンピューティングとAI事業の減速を図り、AMDや、ArmまたはRISC-V命令セットアーキテクチャを使用したチップを開発している複数の企業との競争激化に直面している従来のCPU事業を超えて、x86大手のNVIDIAが多様化できることを期待している。®