次世代Meta AIチップは電力を節約しながら広告を配信します

Table of Contents

次世代Meta AIチップは電力を節約しながら広告を配信します

Meta は 2 月に第 2 世代 AI アクセラレータを初公開した後、この自社製シリコンについての詳細を明らかにする準備を整えました。このシリコンは、すでに 16 の地域で広告推奨に利用されていると言われています。

Facebook の巨人は、自社の広告帝国を支える推奨モデルを推進するために、ビデオストリーミングから機械学習まで、あらゆる種類のワークロード向けにカスタム アクセラレータを設計してきました。

Meta Training Inference Accelerator (MTIA) ファミリーの最新製品は、The Next Platform の友人が昨年分析した第 1 世代の製品と比べて、パフォーマンスが 3 倍、電力効率が 1.5 倍優れていると主張しています。

Meta によれば、一貫性を保つために MTIA v2 と呼ぶことにする第 2 世代チップは、ハイパースケーラーの内部ランキングと推奨モデルで最高のパフォーマンスを引き出せるように、コンピューティング、メモリ容量、帯域幅のバランスをとるように設計されたとのことです。

設計を詳しく見てみると、アクセラレータには 8x8 グリッドの処理要素 (PE) が搭載されており、これらを組み合わせることで、MTIA v1 と比較して 3.5 倍の高密度コンピューティング パフォーマンス、またはスパース性を有効にした場合は 7 倍のパフォーマンスが得られます。

MetaのAIアクセラレータはすでにハイパースケーラーのランキングとレコメンデーションモデルに活用されている。

Metaの最新AIアクセラレータ(上)は、すでにハイパースケーラーのランキングモデルとレコメンデーションモデルに採用されています。(クリックして拡大)出典:Meta

Metaは、TSMCの5nmプロセスノードの小型化とクロック速度の800MHzから1.35GHzへの向上に加え、最新世代の製品のパフォーマンス向上に貢献したアーキテクチャと設計の改良点をいくつか挙げています。これには、スパース計算のサポート、オンダイメモリとオフダイメモリの増強、そして旧モデルの2倍の帯域幅を持つアップグレードされたネットワークオンチップ(NoC)が含まれます。第1世代と第2世代の比較は以下の通りです。

  MTIA v1 MTIA v2
プロセス技術 7nm TSMC 5nm TSMC
ダイエリア 373mm 2 421mm 2
PE 8x8グリッド 8x8グリッド
クロック速度 800MHz 1.35GHz
INT8 パフォーマンス 102トップス 354/708* トップス
FP16/BF16 パフォーマンス 51.2 TFLOPS 177/354* TFLOPS
PEメンバー PEあたり128KB PEあたり384KB
オンチップメモリ 128MB 256MB
オフチップメモリ 64GB 128GB
オフチップメモリ​​帯域幅 176GB/秒 204GB/秒
接続性 8x PCIe Gen 4.0 - 16GB/秒 8x PCIe Gen 5.0 - 32GB/秒
TDP 25W 90W

* パフォーマンスはまばらです。両方のチップの詳細な内訳は、こちらでご覧いただけます。

MTIA v2がWebの巨人であるGoogleのGPUの必要性をなくすわけではないことに注意が必要です。Metaの最高責任者であるマーク・ザッカーバーグ氏は以前、自社が35万台のNvidia H100アクセラレータを導入し、年末までに60万台のH100に相当する稼働率を達成すると述べていました。

代わりに、MTIAはMeta(および他の企業)にとってますます馴染みのあるパターン、つまり特定のタスクに合わせてカスタマイズされたカスタムシリコンの開発パターンを採用しています。キットはCPUやGPUほど柔軟ではないかもしれませんが、大規模に展開する場合、ASICの方が効率的である可能性があるという考え方です。

最新チップは前世代チップの約4倍の消費電力を誇りますが、浮動小数点演算性能は最大7倍にまで向上しています。GPUと比較すると、Metaの最新アクセラレータは7.8 TOPS/W(ワットあたりTOPS)を達成しています。これは、Blackwellの記事でも述べたように、NVIDIAのH100 SXMの5.65 TOPS/Wを上回り、A100 SXMの3.12 TOPS/Wの2倍以上の性能です。

とはいえ、Metaがチップのサイズを社内のワークロード、特にレコメンデーションモデルの推論に合わせて調整するために多大な労力を費やしたことは明らかです。これらのモデルは、例えば知り合いかもしれない人や、Metaのビジネスモデルにとってより重要なのは、どの広告がユーザーにとって関連性の高いものであるかといった、パーソナライズされた提案を提供するように設計されています。

また、チップは必要に応じてスケールアウトできるように設計されており、合計 72 個のアクセラレータを含むラックベースのシステムに導入できます。各システムは、ボードごとに 2 個の MTIA v2 チップを備えた 12 個のコンピューティング ボードを含む 3 つのシャーシを組み合わせています。

各MTIA v2シャーシには、それぞれ2つのアクセラレータを搭載した12個のコンピューティングボードが含まれています。

各 MTIA v2 シャーシには、それぞれ 2 つのアクセラレータを搭載した 12 個のコンピューティング ボードが含まれています... クリックして拡大します。出典: Meta。

ワークロードのデプロイに関しては、MetaはPyTorchフレームワークとTritonコンパイラに大きく依存しています。この組み合わせは、特定のハードウェア向けに最適化されたコードを開発する必要性がほぼなくなるため、様々なGPUやアクセラレータ上でタスクを実行するために使用されています。

  • イマジネーション、スマートテレビ、IoT、組み込み機器向けRISC-V CPUコアのライセンスを取得
  • Hailoの最新AIチップは統合NPUを搭載し、高級ワインのように電力を消費します
  • GoogleがArmベースのAxionチップでカスタムサーバーCPU市場に参入
  • インテル・ガウディの3番目にして最後の大活躍は、NVIDIAのH100を上回るように構築されたAIアクセラレータです。

Metaは、Linux Foundationに管理を委譲する前に同社が開発したPyTorchの主要な推進者であり、NvidiaやAMDの様々なGPUハードウェアで実行可能なAIアプリケーションをエンジニアが柔軟に開発できるとしている。そのため、Metaが自社のチップに同じ技術を採用したいと考えるのは当然のことだ。

実際、Meta はソフトウェアとハ​​ードウェアを共同開発することで、既存の GPU プラットフォームに比べて高い効率を実現でき、将来の最適化によってさらに高いパフォーマンスを引き出せると期待していると主張しています。

MTIA v2は、Metaが発表する最後のチップではないことは間違いありません。ソーシャルメディア界の巨人であるMetaは、将来の生成型AIシステムをサポートするものも含め、複数のチップ設計プログラムが進行中であると発表しました。®

Discover More