AMDのビクター・ペン氏:AIの電力への渇望は効率的なシリコンの必要性を強調している

Table of Contents

AMDのビクター・ペン氏:AIの電力への渇望は効率的なシリコンの必要性を強調している

Hot Chips今週の Hot Chips で講演した AMD 社長 Victor Peng 氏は、ますます大規模になる AI モデルに対する需要の増加に取り組む半導体業界が直面する最大の課題の 1 つである電力について語った。

「こうした大規模な導入をマクロレベルで見てみると、十分な電源さえ見つからず、送電網や配電についても懸念される状況になっている」と同氏は指摘した。

AIの飽くなき電力需要は、この1年で大きな注目を集めました。一部の事業者は原子力発電所の隣に拠点を構え始めているほどです。そして、この問題は今後も容易には解決しそうにありません。

「結局のところ、より多くの計算能力を投入すれば、モデルの規模が大きくなり、パフォーマンス、精度、知能レベルが向上します。どう考えても、です」と彼は主張した。彼は、これらのモデルの学習に必要な電力が、数百メガワット時から数百ギガワット時へと急速に進化していると指摘した。

この課題に対処するために、半導体業界はインフラストラクチャのパフォーマンスを向上させるだけでなく、効率化にもさらに重点を置く必要があると Peng 氏は主張しています。

「どんなに電力予算が限られていると思っていても、より高いパフォーマンスが得られれば、より大きなモデルをトレーニングしてより早くインテリジェンスを獲得するか、よりコスト効率よくそれを提供できるようになります」と氏は説明した。

残念ながら、チップメーカーや設計者がコンピューティング能力の拡張を続けるために頼ってきた多くの手段は、もはや力不足のようです。プロセス技術の進歩は縮小し、世代交代までの期間は長くなり、コストも増加しています。

業界関係者がムーアの法則は健在だと主張する理由は、チップレットアーキテクチャと高度なパッケージングへの移行によって多くの課題を克服できるからだ、とペンド氏は述べた。これはAMDが2017年に第1世代Epycプロセッサを発売して以来、常に先駆者であり続けている分野だ。

AMDのデータによると、3Dスタッキングシリコンはより複雑ではあるものの、パッケージ外のシリコンよりも50倍効率的である。

AMDのデータによると、3Dスタッキングシリコンは複雑ではあるものの、パッケージ外から製造するよりも50倍効率的だという。(クリックして拡大)

AMD の X シリーズ Epyc や Ryzen プロセッサ、MI300 シリーズ GPU や APU で見られるように、3D スタック シリコンに移行することで、パッケージ外の場合と比べて 1 ジュールあたりのビット数を 50 倍に高めることが可能になると Peng 氏は主張しています。

これは、コンピューティングのスケールアップやスケールアウトを検討し始めたときに特に重要になります。これは、今日のデータセンターでの AI トレーニングや大規模モデル推論では非常に一般的なことです。

AMDのデータによると、すべてをチップ上に保持する場合と比較すると、スケールアップシステム(NVLinkやInfinity FabricをベースとしたGPUネットワークなど)は1,600倍の電力を必要とします。このコンピューティング能力を複数のノードに拡張するには、さらに多くの電力が必要になります。これは、これらの低速な相互接続の非効率性だけでなく、それらを構成するすべてのスイッチ、NIC、光学系を動作させるために必要な電力も原因です。

Infinity Fabricのような高速相互接続ファブリックでも、ダイから外すコストは莫大です。

Infinity Fabricのような高速相互接続ファブリックであっても、オフダイのコストは莫大です。クリックして拡大

ペン氏によると、データセンターの効率性向上において、ネットワークは依然として大きなチャンスとなっている。コンピューティングが電力消費の大部分を占める一方で、ネットワークは約20%を消費している。

ここで彼は、AMDのMI300Xベースのシステムで8つのGPUを繋ぎ合わせるために使用されているInfinity Fabricを例に挙げ、ネットワークファブリックのスケールアップが役立つ可能性を示唆しました。ライバルのNVIDIAは、NVLinkを使用して最大32個のGPUを繋ぎ合わせるシステムを既に実証しており、さらに高密度な36個および72個のGPU構成の開発も計画しています。

しかし、AIの電力問題はデータセンターに限ったものではありません。クライアントや組み込み分野におけるAIアプリケーションにも影響を及ぼします。ただし、数十キロワットではなく、数十ワット以下の電力が問題となります。さらに、これらのセグメントごとに、電力以外にもレイテンシなど、考慮すべき要件が異なります。

こうした状況において、ペン氏はヘテロジニアスコンピューティングを慎重に適用することが前進への道筋となると主張しています。AMDは2022年にザイリンクスとペンサンドを買収し、その後、CPU、GPU、DPU、FPGA、NPUといったハードウェアラインナップを拡充しました。最近では、この技術がモバイルチップに統合され、AI処理のエネルギー消費量を削減する例も見られるようになりました。

その最新例として、AMDのStrix Point Ryzen 300シリーズプロセッサが挙げられます。このプロセッサは、50TOPSのINT8およびブロックFP16性能を実現するXDNA 2 NPUを搭載しています。ライバルであるIntel、Qualcomm、Appleも、この理由からNPUを採用しています。

  • AI/MLの未来は今日の現実にかかっている。そしてそれは決して楽観的なものではない。
  • GoogleはGenAIモデルをトレーニングし、DOOMのゲームエンジンをほぼリアルタイムでシミュレートする
  • イーロン・マスク氏、選挙誤報阻止のためGrok AIボットを制御
  • コンピュータ業界が失敗した理由 ― 初期のヒット作

Peng氏が触れたもう1つの関連分野は、AIモデルをデータセンターに展開するかエッジに展開するかに関わらず、量子化です。このトピックについては最近のハンズオンで詳しく取り上げましたが、簡単に言うと、量子化とはモデルの重みを縮小して精度を下げ、品質をある程度損なう圧縮技術です。

精度の低下を許容できるなら、量子化はかなりの効率向上をもたらす。

精度の低下を許容できるなら、量子化はかなりの効率向上をもたらすだろう – クリックして拡大

AMDは既にMI300XでFP8を採用しており、来年にはMI350Xを発売し、NVIDIAに続き4ビット浮動小数点データ型をサポートする予定です。Peng氏の基調講演で強調されたように、FP8の精度低下は、FP8を使用することで実現できるワット当たりの性能向上と引き換えに、多くの場合、メリットをもたらします。

一方、組み込み分野では、データフローを最適化するためにモデルをシリコンに直接マッピングする価値があるかもしれないとPeng氏は示唆しています。ある社内テストでは、AMDの技術者たちは、標準的なINT8コンピューティングと比較して、推論あたりのエネルギー消費量を4,500分の1に削減することに成功しました。

最後に、Peng氏は、ハードウェアの性能を最大限に引き出すために、ソフトウェアの最適化、共同設計、そしてコラボレーションの重要性について触れました。これは、Peng氏が今月末に退職を決意する前に、改善に大きく貢献した分野です。®

Discover More