次世代Meta AIチップは電力を節約しながら広告を配信します

Meta は 2 月に第 2 世代 AI アクセラレータを初公開した後、この自社製シリコンについての詳細を明らかにする準備を整えました。このシリコンは、すでに 16 の地域で広告推奨に利用されていると言われています。

Facebook の巨人は、自社の広告帝国を支える推奨モデルを推進するために、ビデオストリーミングから機械学習まで、あらゆる種類のワークロード向けにカスタムアクセラレータを設計してきました。

Meta Training Inference Accelerator (MTIA) ファミリーの最新製品は、The Next Platform の友人が昨年分析した第 1 世代の製品と比べて、パフォーマンスが 3 倍、電力効率が 1.5 倍優れていると主張しています。

Meta によれば、一貫性を保つために MTIA v2 と呼ぶことにする第 2 世代チップは、ハイパースケーラーの内部ランキングと推奨モデルで最高のパフォーマンスを引き出せるように、コンピューティング、メモリ容量、帯域幅のバランスをとるように設計されたとのことです。

設計を詳しく見てみると、アクセラレータには 8x8 グリッドの処理要素 (PE) が搭載されており、これらを組み合わせることで、MTIA v1 と比較して 3.5 倍の高密度コンピューティングパフォーマンス、またはスパース性を有効にした場合は 7 倍のパフォーマンスが得られます。

MetaのAIアクセラレータはすでにハイパースケーラーのランキングとレコメンデーションモデルに活用されている。

Metaの最新AIアクセラレータ（上）は、すでにハイパースケーラーのランキングモデルとレコメンデーションモデルに採用されています。（クリックして拡大）出典：Meta

Metaは、TSMCの5nmプロセスノードの小型化とクロック速度の800MHzから1.35GHzへの向上に加え、最新世代の製品のパフォーマンス向上に貢献したアーキテクチャと設計の改良点をいくつか挙げています。これには、スパース計算のサポート、オンダイメモリとオフダイメモリの増強、そして旧モデルの2倍の帯域幅を持つアップグレードされたネットワークオンチップ（NoC）が含まれます。第1世代と第2世代の比較は以下の通りです。

	MTIA v1	MTIA v2
プロセス技術	7nm TSMC	5nm TSMC
ダイエリア	373mm ²	421mm ²
PE	8x8グリッド	8x8グリッド
クロック速度	800MHz	1.35GHz
INT8 パフォーマンス	102トップス	354/708* トップス
FP16/BF16 パフォーマンス	51.2 TFLOPS	177/354* TFLOPS
PEメンバー	PEあたり128KB	PEあたり384KB
オンチップメモリ	128MB	256MB
オフチップメモリ	64GB	128GB
オフチップメモリ帯域幅	176GB/秒	204GB/秒
接続性	8x PCIe Gen 4.0 - 16GB/秒	8x PCIe Gen 5.0 - 32GB/秒
TDP	25W	90W

* パフォーマンスはまばらです。両方のチップの詳細な内訳は、こちらでご覧いただけます。

MTIA v2がWebの巨人であるGoogleのGPUの必要性をなくすわけではないことに注意が必要です。Metaの最高責任者であるマーク・ザッカーバーグ氏は以前、自社が35万台のNvidia H100アクセラレータを導入し、年末までに60万台のH100に相当する稼働率を達成すると述べていました。

代わりに、MTIAはMeta（および他の企業）にとってますます馴染みのあるパターン、つまり特定のタスクに合わせてカスタマイズされたカスタムシリコンの開発パターンを採用しています。キットはCPUやGPUほど柔軟ではないかもしれませんが、大規模に展開する場合、ASICの方が効率的である可能性があるという考え方です。

最新チップは前世代チップの約4倍の消費電力を誇りますが、浮動小数点演算性能は最大7倍にまで向上しています。GPUと比較すると、Metaの最新アクセラレータは7.8 TOPS/W（ワットあたりTOPS）を達成しています。これは、Blackwellの記事でも述べたように、NVIDIAのH100 SXMの5.65 TOPS/Wを上回り、A100 SXMの3.12 TOPS/Wの2倍以上の性能です。

とはいえ、Metaがチップのサイズを社内のワークロード、特にレコメンデーションモデルの推論に合わせて調整するために多大な労力を費やしたことは明らかです。これらのモデルは、例えば知り合いかもしれない人や、Metaのビジネスモデルにとってより重要なのは、どの広告がユーザーにとって関連性の高いものであるかといった、パーソナライズされた提案を提供するように設計されています。

また、チップは必要に応じてスケールアウトできるように設計されており、合計 72 個のアクセラレータを含むラックベースのシステムに導入できます。各システムは、ボードごとに 2 個の MTIA v2 チップを備えた 12 個のコンピューティングボードを含む 3 つのシャーシを組み合わせています。

各MTIA v2シャーシには、それぞれ2つのアクセラレータを搭載した12個のコンピューティングボードが含まれています。

各 MTIA v2 シャーシには、それぞれ 2 つのアクセラレータを搭載した 12 個のコンピューティングボードが含まれています... クリックして拡大します。出典: Meta。

ワークロードのデプロイに関しては、MetaはPyTorchフレームワークとTritonコンパイラに大きく依存しています。この組み合わせは、特定のハードウェア向けに最適化されたコードを開発する必要性がほぼなくなるため、様々なGPUやアクセラレータ上でタスクを実行するために使用されています。

イマジネーション、スマートテレビ、IoT、組み込み機器向けRISC-V CPUコアのライセンスを取得
Hailoの最新AIチップは統合NPUを搭載し、高級ワインのように電力を消費します
GoogleがArmベースのAxionチップでカスタムサーバーCPU市場に参入
インテル・ガウディの3番目にして最後の大活躍は、NVIDIAのH100を上回るように構築されたAIアクセラレータです。

Metaは、Linux Foundationに管理を委譲する前に同社が開発したPyTorchの主要な推進者であり、NvidiaやAMDの様々なGPUハードウェアで実行可能なAIアプリケーションをエンジニアが柔軟に開発できるとしている。そのため、Metaが自社のチップに同じ技術を採用したいと考えるのは当然のことだ。

実際、Meta はソフトウェアとハードウェアを共同開発することで、既存の GPU プラットフォームに比べて高い効率を実現でき、将来の最適化によってさらに高いパフォーマンスを引き出せると期待していると主張しています。

MTIA v2は、Metaが発表する最後のチップではないことは間違いありません。ソーシャルメディア界の巨人であるMetaは、将来の生成型AIシステムをサポートするものも含め、複数のチップ設計プログラムが進行中であると発表しました。®

次世代Meta AIチップは電力を節約しながら広告を配信します

Table of Contents

Discover More

Appleのアプリ透明性ルール：iOS版Chromeと検索のGoogleのプライバシーラベルがDuckDuckGoで強調

なんてこった！オーストラリアのISP、IPv4の高額な請求書を受け、IPv6アドレスへ移行

ハッブルは停止から復旧しただけでなく、すでに宇宙の写真を撮影している。

Table of Contents

Smart Recommendations

Discover More