Nvidiaの生成AI推論カードは、H100を2つ接着しただけのものだ

Table of Contents

Nvidiaの生成AI推論カードは、H100を2つ接着しただけのものだ

GTC Nvidia の生成 AI の誇大宣伝を利用する戦略: もちろん、2 枚の H100 PCIe カードを接着します。

今週のGTCで、NVIDIAはH100 GPUの新バージョン「H100 NVL」を発表しました。同社によると、ChatGPTやGPT4といった大規模言語モデルの推論に最適とのことです。2枚のH100 PCIeカードをくっつけたような見た目ですが、まさにその通りです。(ちなみに、メモリも高速化されています。これについては後ほど詳しく説明します。)

「これらのGPUは一体となって、50億から2000億のパラメータを持つ大規模な言語モデルやGPTモデルを展開します」とNVIDIAのアクセラレーテッドコンピューティング担当副社長イアン・バック氏は月曜日の記者会見で述べた。

複数のGPUダイを1枚のカードに詰め込んできた長い歴史を持つNVIDIAにとって、このフォームファクタは少々異例と言えるでしょう。実際、NVIDIAのGrace Hopperスーパーチップは、Grace CPUとHopper GH100を組み合わせた、まさにそれを実現するチップです。推測するに、NVIDIAは標準的なエンタープライズPCIeフォームファクタに十分な電源回路とメモリを詰め込むのに苦労したのかもしれません。

フォームファクターについて言えば、このフランケンカードは想像を絶するほど巨大で、4つのスロットにまたがり、TDPは約700Wを誇ります。通信はPCIe 5.0 x16スロット2つで行われますが、これはH100を2つ繋ぎ合わせただけのものだからです。この接合部は3つのNVLinkブリッジのようです。Nvidiaによると、これは600GB/秒の帯域幅を実現するとのことで、これはデュアルPCIeインターフェースの帯域幅の4.5倍強に相当します。

H100 のペアと同等のパフォーマンスを期待するかもしれませんが、Nvidia は、少なくとも FP8 および FP16 のワークロードでは、このカードは実際には 2.4 倍から 2.6 倍のパフォーマンスを実現できると主張しています。

  • 米国が中国のファーウェイを永久に排除しようとしている中、エヌビディアは爆発範囲内にいる
  • 今年は100GE NICが主流になる年になるでしょうか?AIに興味があるなら、
  • クラウドの新興企業は、エッジサーバーをホストする場合、無料のヒートマップを提供する
  • 米国は中国にTSMCの工場を譲るよりも、工場が燃えるのを見る方がましだ

このパフォーマンスは、NVIDIAがHBM2eではなく、より高速なHBM3メモリを採用したという決定によるものと考えられます。ちなみに、NVIDIAは既に大型のSMX5 GPUでHBM3を採用しています。また、このメモリは帯域幅が広いだけでなく(80GBのH100 PCIeカード1枚と比較して4倍)、ダイあたり94GBと大容量です。

これらのカード自体は、大規模言語モデルの推論を目的としています。「トレーニングは最初のステップです。ニューラルネットワークモデルにタスクを実行したり、質問に答えたり、画像を作成したりする方法を教えることです。推論は、これらのモデルを本番環境に展開することです」とバック氏は述べています。

NVIDIAはAIトレーニング用に大型のSXM5 H100を既に実用化していますが、これらはOEMから4台または8台セットでのみ入手可能です。また、1台あたり700Wの消費電力は、高熱になるだけでなく、既存のデータセンターへの設置が困難になる可能性があります。参考までに、コロケーションラックの消費電力は6~10kW程度です。

比較すると、700WのH100 NVLはもう少し容易に設置できるはずです。私たちの推定では、シングルソケット、デュアルH100 NVLシステム(GH100ダイ4個)は2.5kW程度になるでしょう。

しかし、これらのカードの購入を検討している人は、もう少し待たなければなりません。NVIDIAは2枚のカードを接着するという安易な方法を選んだかもしれませんが、NVLカードは今年後半まで発売されないと発表しています。

火を噴く GPU が必要ない場合はどうすればよいでしょうか?

もう少し効率の良いものをお探しなら、Nvidiaは名高いT4の後継機もリリースしています。Ada LovelaceベースのL4は、ロープロファイルのシングルスロットGPUで、TDPはH100 NVLの約10分の1の72Wです。

Nvidia の L4 は、消費電力がわずか 72W のロープロファイルのシングル スロット カードです。

NvidiaのL4は、消費電力がわずか72Wのロープロファイルシングルスロットカードです(クリックして拡大)

つまり、このカードは従来製品と同様に、PCIeバスから完​​全に電源供給を受けられるということです。大規模モデルの推論向けに設計されたNVLカードとは異なり、NvidiaはL4を「ユニバーサルGPU」と位置付けています。言い換えれば、L4は単なるGPUではなく、より小型で安価なため、より多くのシステム(正確には最大8台)に搭載できるということです。L4のデータシートによると、各カードは24GBのvRAMと最大32テラフロップスのFP32演算性能を備えています。

「これは効率的な AI、ビデオ、グラフィックス用です」と Buck 氏は述べ、このカードは AI ビデオ ワークロード向けに特に最適化されており、新しいエンコーダ/デコーダ アクセラレータを搭載していると付け加えた。

「L4 サーバーは、さまざまなモバイル ユーザーから送信される 1040 のビデオ ストリームをデコードできます」と彼は述べたが、このサーバーに必要な GPU の正確な数や、ストリームの解像度については明らかにしなかった。

この機能は、従来ビデオのデコード、エンコード、トランスコード、ビデオ ストリーミングに使用されてきた Nvidia の既存の 4 シリーズ カードと一致しています。

しかし、より大型の兄弟機種であるL40やH100と同様に、このカードは様々な小型モデルにおけるAI推論にも使用できます。そのため、L4の最初の顧客の一つは、Google CloudのVertex AIプラットフォームとG2シリーズVMです。

L4 は GCP のプライベート プレビューで利用可能であり、Nvidia の広範なパートナー ネットワークから購入できます。®

Discover More