Hot Chips RISC-V チャンピオンの Tenstorrent は、今週の Hot Chips で、今後発売予定の Blackhole AI アクセラレータをこれまでで最も詳しく紹介しました。同社によると、このアクセラレータは、生のコンピューティング性能とスケーラビリティの点で Nvidia A100 を上回る性能を発揮できるとのことです。
各 Blackhole チップは、FP8 で 745 teraFLOPS (FP16 で 372 teraFLOPS)、32GB の GDDR6 メモリ、10 個の 400Gbps リンク全体で合計 1TBps の帯域幅が可能なイーサネットベースの相互接続を誇ります。
アクセラレータの140個のTensixコアは、最大745テラフロップスのFP8パフォーマンスを実現します。 - クリックして拡大
Tenstorrent は、メモリ容量と帯域幅の両方で劣るものの、最新のチップが Nvidia A100 GPU に対してパフォーマンスで若干の優位性を提供できることを示しています。
しかし、A100と同様に、TenstorrentのBlackholeはスケールアウトシステムの一部として導入されるように設計されています。このAIチップスタートアップは、4x8メッシュに接続された32個のBlackholeアクセラレータを単一のノードに詰め込む計画で、同社はこれをBlackhole Galaxyと呼んでいます。
Tenstorrent の Blackhole Galaxy システムは、32 個の Blackhole アクセラレータを組み合わせて、FP8 の約 24 ペタフロップスの性能を実現します。 - クリックして拡大
合計で、Blackhole Galaxy 1基あたり、FP8で23.8ペタFLOPS、FP16で11.9ペタFLOPSの性能を誇り、16TBpsの帯域幅を実現する1TBのメモリを搭載しています。さらに、Tenstorrent社によると、このチップのコア密度の高いアーキテクチャ(後ほど詳しく説明します)により、これらのシステムはそれぞれ、コンピューティングノード、メモリノード、あるいは11.2TBpsの高帯域幅AIスイッチとして機能できるとのことです。
「これをレゴとして使うだけで、トレーニング クラスター全体を作成できます」と、Tenstorrent の AI ソフトウェアおよびアーキテクチャのシニア フェローである Davor Capalija 氏は述べています。
Tenstorrentは、ブラックホール銀河系を「レゴブロック」としてのみ使用して、トレーニングクラスター全体を構築できると主張しています。 - クリックして拡大
比較すると、NVIDIA の最も高密度な HGX/DGX A100 システムは、1 台あたり最大 8 基の GPU を搭載し、高密度 FP16 パフォーマンスは 2.5 ペタフロップス弱です。これに対し、Blackhole Galaxy は 4.8 倍近く高速です。実際、システムレベルでは、Blackhole Galaxy は高密度 FP8 パフォーマンスが約 15.8 ペタフロップスである NVIDIA の HGX/DGX H100 および H200 システムと競合できるはずです。
Tenstorrentはオンボードイーサネットを採用しているため、チップ間およびノード間ネットワークにおいて、NVIDIAがNVLinkとInfiniBand/イーサネットを併用しているような、複数の相互接続技術を並列処理するといった課題を回避できます。この点において、Tenstorrentのスケールアウト戦略は、同じくイーサネットを主要な相互接続として採用しているIntelのGaudiプラットフォームと非常に類似しています。
Tenstorrent がトレーニング クラスターどころか 1 つのボックスにどれだけの Blackhole アクセラレータを詰め込む予定なのかを考えると、ハードウェア障害にどう対処するのか興味深いところです。
ベビーRISC-VとビッグRISC-Vの出会い
PCIe ベースのアクセラレータとして導入された以前の Greyskull および Wormhole パーツとは異なり、Tenstorrent の Blackhole (Nvidia の同様の名前の Blackwell アーキテクチャと混同しないでください) は、スタンドアロンの AI コンピュータとして機能するように設計されています。
TenstorrentのMLフレームワークおよびプログラミングモデル担当シニアフェロー、Jasmina Vasiljevic氏によると、これは4つのクラスターに配置された16個の「Big RISC-V」64ビット、デュアルイシュー、インオーダーCPUコアのおかげで実現しています。重要なのは、これらのコアがLinuxを実行するデバイス上のホストとして機能するのに十分なパワーを持っていることです。これらのCPUコアは、メモリ管理、オフダイ通信、データ処理を担う752個の「Baby RISC-V」コアとペアになっています。
ブラックホールアクセラレータには、16個のBig RISC-Vコアと752個のBaby RISC-Vコアが搭載されています。 - クリックして拡大
ただし、実際のコンピューティングは、Tenstorrent の Tensix コア 140 個によって処理されます。各コアは、5 つの「Baby RISC-V」コア、1 組のルーター、コンピューティング コンプレックス、および L1 キャッシュで構成されています。
計算コンプレックスは、行列ワークロードを高速化するために設計されたタイル演算エンジンとベクトル演算エンジンで構成されています。タイル演算エンジンは、Int8、TF32、BF/FP16、FP8、および2ビットから8ビットまでのブロック浮動小数点データ型をサポートし、ベクトル演算エンジンはFP32、Int16、Int32を対象とします。
Blackholes の Tensix コアはそれぞれ、5 つの RISC-V ベビーコア、2 つのルーター、L1 キャッシュ、マトリックス エンジンとベクター エンジンを備えています。 - クリックして拡大
Capalija 氏によると、この構成は、チップが行列乗算、畳み込み、シャーディングされたデータ レイアウトなど、AI および HPC アプリケーションで一般的なさまざまなデータ パターンをサポートできることを意味します。
ブラックホールのベイビーコアは、さまざまなデータ移動パターンをサポートするようにプログラムできます。 - クリックして拡大
BlackholeのTensixコアは、搭載されている752個のいわゆるベビーRISC-Vコアのうち700個を占めています。残りのコアは、メモリ管理(DRAMの「D」)、オフチップ通信(Ethernetの「E」)、システム管理(「A」)、PCIe(「P」)を担っています。
- グーグルのアイルランドの小屋計画、環境問題で却下
- IBM、次世代ビッグアイアンで大規模AIを実現する次世代チップを発表
- Cerebrasはウェハスケールチップに推論技術を導入し、1秒あたり1,800トークン生成速度を主張
- AI/MLの未来は今日の現実にかかっている。そしてそれは決して楽観的なものではない。
ソフトウェアエコシステムの構築
Tenstorrent 社は、新しいチップとともに、同社のアクセラレータ用の TT-Metalium 低レベル プログラミング モデルも公開しました。
NVIDIAのCUDAプラットフォームに精通している人なら誰でも知っているように、最高性能のハードウェアでさえ、ソフトウェアが成功を左右することがあります。実際、TT-Metaliumはヘテロジニアスなアーキテクチャという点でCUDAやOpenCLなどのGPUプログラミングモデルを彷彿とさせますが、「AIとスケールアウト」コンピューティングのためにゼロから構築されているという点で異なります、とCapalija氏は説明します。
こうした違いの一つは、カーネル自体がAPI付きのシンプルなC++言語であることです。「特別なカーネル言語の必要性を感じませんでした」と彼は説明しました。
Tenstorrent は、TensorFlow、PyTorch、ONNX、Jax、vLLM などの多くの標準モデル ランタイムをサポートすることを目指しています - クリックして拡大
Tenstorrent は、TT-NN、TT-MLIR、TT-Forge などの他のソフトウェア ライブラリと組み合わせて、PyTorch、ONNX、JAX、TensorFlow、vLLM などの一般的に使用されるランタイムを使用して、アクセラレータ上であらゆる AI モデルの実行をサポートすることを目指しています。
これらの高レベルプログラミング モデルのサポートにより、AMD および Intel アクセラレータの場合と同様に、これらのアクセラレータ全体にワークロードを展開する際の複雑さが抽象化されるはずです。®