TenstorrentのBlackholeチップは768個のRISC-Vコアとほぼ同数のFLOPSを誇る

Hot Chips RISC-V チャンピオンの Tenstorrent は、今週の Hot Chips で、今後発売予定の Blackhole AI アクセラレータをこれまでで最も詳しく紹介しました。同社によると、このアクセラレータは、生のコンピューティング性能とスケーラビリティの点で Nvidia A100 を上回る性能を発揮できるとのことです。

各 Blackhole チップは、FP8 で 745 teraFLOPS (FP16 で 372 teraFLOPS)、32GB の GDDR6 メモリ、10 個の 400Gbps リンク全体で合計 1TBps の帯域幅が可能なイーサネットベースの相互接続を誇ります。

アクセラレータの 140 個の Tensix コアは、最大 745 teraFLOPS の FP8 パフォーマンスを実現します。

アクセラレータの140個のTensixコアは、最大745テラフロップスのFP8パフォーマンスを実現します。 - クリックして拡大

Tenstorrent は、メモリ容量と帯域幅の両方で劣るものの、最新のチップが Nvidia A100 GPU に対してパフォーマンスで若干の優位性を提供できることを示しています。

しかし、A100と同様に、TenstorrentのBlackholeはスケールアウトシステムの一部として導入されるように設計されています。このAIチップスタートアップは、4x8メッシュに接続された32個のBlackholeアクセラレータを単一のノードに詰め込む計画で、同社はこれをBlackhole Galaxyと呼んでいます。

Tenstorrent の Blackhole Galaxy システムは、32 個の Blackhole アクセラレータを組み合わせて、FP8 パフォーマンスを約 24 petaFLOPS 実現します。

Tenstorrent の Blackhole Galaxy システムは、32 個の Blackhole アクセラレータを組み合わせて、FP8 の約 24 ペタフロップスの性能を実現します。 - クリックして拡大

合計で、Blackhole Galaxy 1基あたり、FP8で23.8ペタFLOPS、FP16で11.9ペタFLOPSの性能を誇り、16TBpsの帯域幅を実現する1TBのメモリを搭載しています。さらに、Tenstorrent社によると、このチップのコア密度の高いアーキテクチャ（後ほど詳しく説明します）により、これらのシステムはそれぞれ、コンピューティングノード、メモリノード、あるいは11.2TBpsの高帯域幅AIスイッチとして機能できるとのことです。

「これをレゴとして使うだけで、トレーニングクラスター全体を作成できます」と、Tenstorrent の AI ソフトウェアおよびアーキテクチャのシニアフェローである Davor Capalija 氏は述べています。

Tenstorrent は、Blackhole Galaxy システムを「レゴブロック」としてのみ使用して、トレーニングクラスター全体を構築できると主張しています。

Tenstorrentは、ブラックホール銀河系を「レゴブロック」としてのみ使用して、トレーニングクラスター全体を構築できると主張しています。 - クリックして拡大

比較すると、NVIDIA の最も高密度な HGX/DGX A100 システムは、1 台あたり最大 8 基の GPU を搭載し、高密度 FP16 パフォーマンスは 2.5 ペタフロップス弱です。これに対し、Blackhole Galaxy は 4.8 倍近く高速です。実際、システムレベルでは、Blackhole Galaxy は高密度 FP8 パフォーマンスが約 15.8 ペタフロップスである NVIDIA の HGX/DGX H100 および H200 システムと競合できるはずです。

Tenstorrentはオンボードイーサネットを採用しているため、チップ間およびノード間ネットワークにおいて、NVIDIAがNVLinkとInfiniBand/イーサネットを併用しているような、複数の相互接続技術を並列処理するといった課題を回避できます。この点において、Tenstorrentのスケールアウト戦略は、同じくイーサネットを主要な相互接続として採用しているIntelのGaudiプラットフォームと非常に類似しています。

Tenstorrent がトレーニングクラスターどころか 1 つのボックスにどれだけの Blackhole アクセラレータを詰め込む予定なのかを考えると、ハードウェア障害にどう対処するのか興味深いところです。

ベビーRISC-VとビッグRISC-Vの出会い

PCIe ベースのアクセラレータとして導入された以前の Greyskull および Wormhole パーツとは異なり、Tenstorrent の Blackhole (Nvidia の同様の名前の Blackwell アーキテクチャと混同しないでください) は、スタンドアロンの AI コンピュータとして機能するように設計されています。

TenstorrentのMLフレームワークおよびプログラミングモデル担当シニアフェロー、Jasmina Vasiljevic氏によると、これは4つのクラスターに配置された16個の「Big RISC-V」64ビット、デュアルイシュー、インオーダーCPUコアのおかげで実現しています。重要なのは、これらのコアがLinuxを実行するデバイス上のホストとして機能するのに十分なパワーを持っていることです。これらのCPUコアは、メモリ管理、オフダイ通信、データ処理を担う752個の「Baby RISC-V」コアとペアになっています。

Blackhole アクセラレータには、16 個の Big RISC-V コアと 752 個の Baby RISC-V コアが搭載されています。

ブラックホールアクセラレータには、16個のBig RISC-Vコアと752個のBaby RISC-Vコアが搭載されています。 - クリックして拡大

ただし、実際のコンピューティングは、Tenstorrent の Tensix コア 140 個によって処理されます。各コアは、5 つの「Baby RISC-V」コア、1 組のルーター、コンピューティングコンプレックス、および L1 キャッシュで構成されています。

計算コンプレックスは、行列ワークロードを高速化するために設計されたタイル演算エンジンとベクトル演算エンジンで構成されています。タイル演算エンジンは、Int8、TF32、BF/FP16、FP8、および2ビットから8ビットまでのブロック浮動小数点データ型をサポートし、ベクトル演算エンジンはFP32、Int16、Int32を対象とします。

Blackholes の Tensix コアにはそれぞれ、5 つの RISC-V ベビーコア、2 つのルーター、L1 キャッシュ、マトリックスエンジンとベクターエンジンが搭載されています。

Blackholes の Tensix コアはそれぞれ、5 つの RISC-V ベビーコア、2 つのルーター、L1 キャッシュ、マトリックスエンジンとベクターエンジンを備えています。 - クリックして拡大

Capalija 氏によると、この構成は、チップが行列乗算、畳み込み、シャーディングされたデータレイアウトなど、AI および HPC アプリケーションで一般的なさまざまなデータパターンをサポートできることを意味します。

Blackhole のベビーコアは、さまざまなデータ移動パターンをサポートするようにプログラムできます。

ブラックホールのベイビーコアは、さまざまなデータ移動パターンをサポートするようにプログラムできます。 - クリックして拡大

BlackholeのTensixコアは、搭載されている752個のいわゆるベビーRISC-Vコアのうち700個を占めています。残りのコアは、メモリ管理（DRAMの「D」）、オフチップ通信（Ethernetの「E」）、システム管理（「A」）、PCIe（「P」）を担っています。

グーグルのアイルランドの小屋計画、環境問題で却下
IBM、次世代ビッグアイアンで大規模AIを実現する次世代チップを発表
Cerebrasはウェハスケールチップに推論技術を導入し、1秒あたり1,800トークン生成速度を主張
AI/MLの未来は今日の現実にかかっている。そしてそれは決して楽観的なものではない。

ソフトウェアエコシステムの構築

Tenstorrent 社は、新しいチップとともに、同社のアクセラレータ用の TT-Metalium 低レベルプログラミングモデルも公開しました。

NVIDIAのCUDAプラットフォームに精通している人なら誰でも知っているように、最高性能のハードウェアでさえ、ソフトウェアが成功を左右することがあります。実際、TT-Metaliumはヘテロジニアスなアーキテクチャという点でCUDAやOpenCLなどのGPUプログラミングモデルを彷彿とさせますが、「AIとスケールアウト」コンピューティングのためにゼロから構築されているという点で異なります、とCapalija氏は説明します。

こうした違いの一つは、カーネル自体がAPI付きのシンプルなC++言語であることです。「特別なカーネル言語の必要性を感じませんでした」と彼は説明しました。

Tenstorrentは、TensorFlow、PyTorch、ONNX、Jax、vLLMなどの多くの標準モデルランタイムをサポートすることを目指しています。

Tenstorrent は、TensorFlow、PyTorch、ONNX、Jax、vLLM などの多くの標準モデルランタイムをサポートすることを目指しています - クリックして拡大

Tenstorrent は、TT-NN、TT-MLIR、TT-Forge などの他のソフトウェアライブラリと組み合わせて、PyTorch、ONNX、JAX、TensorFlow、vLLM などの一般的に使用されるランタイムを使用して、アクセラレータ上であらゆる AI モデルの実行をサポートすることを目指しています。

これらの高レベルプログラミングモデルのサポートにより、AMD および Intel アクセラレータの場合と同様に、これらのアクセラレータ全体にワークロードを展開する際の複雑さが抽象化されるはずです。®

TenstorrentのBlackholeチップは768個のRISC-Vコアとほぼ同数のFLOPSを誇る

Table of Contents

ベビーRISC-VとビッグRISC-Vの出会い

ソフトウェアエコシステムの構築

Discover More

ビッグデータベンダー各社がApache Icebergの機能を同週に発表

CloudBeesの新CEO、スティーブン・デウィット氏はSaaSの強化を望んでおり、IPOにも反対しない

スティーブ・ジョブズと幹部は、アップルのトップエンジニアによる独自のサーバーCPU設計の要請を却下した。チップ新興企業Nuviaをめぐる法廷闘争の新たな展開だ。

Table of Contents

ベビーRISC-VとビッグRISC-Vの出会い

ソフトウェアエコシステムの構築

Smart Recommendations

Discover More