SiFive は、さまざまな AI チップ用の RISC-V CPU コアを設計しており、現在、自社開発の本格的な機械学習アクセラレータの設計図のライセンス提供を行っています。
今週発表されたSiFiveのIntelligence XMシリーズ・クラスターは、大規模から小規模まで、AIチップ開発のためのスケーラブルなビルディングブロックとなることを約束します。その狙いは、RISC-Vベースの設計を他社がライセンス供与し、プロセッサやシステムオンチップ(SOC)に統合し、エッジデバイスやIoT機器からデータセンターサーバーに至るまでの製品に搭載できるようにすることです。これにより、アーキテクチャ間の競争が促進されることが期待されます。
ファブレスのSiFiveは、AI分野では馴染み深い存在です。以前お伝えしたように、Googleのテンソル処理ユニットの少なくとも一部は、既にSiFiveのX280 RISC-V CPUコアを使用して機械学習アクセラレータを管理し、行列乗算ユニット(MXU)に処理とデータを供給しています。
同様に、SiFive UK の SVP 兼 GM である John Ronco 氏はThe Registerに対し、SiFive の RISC-V 設計は、先月の Hot Chips で詳しく取り上げた Tenstorrent の新しく公開された Blackhole アクセラレータに搭載されている CPU コアの基盤にもなっていると語った。
また、SiFiveのCEO、パトリック・リトル氏は、定型的な声明文の中で、米国を拠点とする同社は現在、RISC-Vベースのチップ設計を「マグニフィセント7」のうちの5社(Microsoft、Apple、Nvidia、Alphabet、Amazon、Meta、Tesla)に供給していると主張したが、そのシリコンのすべてが必ずしもAIに関連しているわけではないと思われる。
SiFiveのIntelligence XMシリーズが、GoogleやTenstorrentといった企業とのこれまでの提携と異なる点は、CPUコアをサードパーティ製の行列演算エンジンに接続し、すべて同じチップにパッケージ化するのではなく、SiFiveが独自のAIアクセラレータ設計を完結させ、顧客がライセンスを取得してシリコンに組み込むようにしている点です。これは、GoogleやTenstorrentのように独自のアクセラレータを開発できる半導体企業ではなく、既製の設計を採用し、カスタマイズして製造工場に送りたいと考えている組織を対象としています。
「一部の顧客にとっては、ハードウェアを自社で用意するのが依然として正しい選択でしょう」とロンコ氏は述べた。「しかし、SiFiveにワンストップショップのようなサービスを求める顧客もいました。」
この意味で、これらのXMクラスターは、カスタムシリコン設計のためのより包括的なビルディングブロックを顧客に提供するという点で、ArmのCompute Subsystem(CSS)設計に似ています。しかし、SiFiveは汎用アプリケーションプロセッサではなく、独自のAIアクセラレータを開発したい企業をターゲットにしています。
XMクラスターの詳細
SiFiveのベースXMクラスタは、SiFiveのIntelligence X RISC-V CPUコア4基を基盤として構築されており、これらのコアは、ハードウェアでニューラルネットワーク計算を実行するための専用に開発された自社製行列演算エンジンに接続されています。SiFiveのX280および最新のX390 Xシリーズコア設計については、以前にご紹介しました。後者は、1,024個のベクトル演算論理ユニット(AALU)を2つ搭載して構成できます。
ベースとなるXMクラスターは、マトリックスエンジンに接続された4つのIntelligence X RISC-V CPUコアで構成されています – クリックして拡大。出典:SiFive
これらの各クラスターは、コヒーレント ハブ インターフェイスを介して最大 1 TB/秒のメモリ帯域幅をサポートし、1 ギガヘルツあたり最大 16 TOPS (テラオペレーション/秒) の INT8 または 8 テラFLOPS の BF16 パフォーマンスを実現することが期待されています。
ギガヘルツあたりの TeraFLOPS は奇妙な測定基準のように思えるかもしれませんが、これは完全なチップではなく、顧客がコンポーネントに配置するクラスターの数、内部で配線されている方法、ダイ上に他に何があるのか、電力と冷却の状況はどうなのか、そして最終的にクロック速度がどれくらいになるのかによってパフォーマンスが主に決まるということを覚えておくことが重要です。
表面的には、これらのXMクラスターはそれほど強力ではないように思えるかもしれません。特に、SiFiveがこの設計に基づくチップのほとんどが1GHz前後で動作することを想定していることを考えるとなおさらです。しかし、いくつか組み合わせると、そのパフォーマンスポテンシャルはすぐに増大します。
ロンコ氏は、この設計に基づくチップのほとんどが 4 〜 8 個の XM クラスターを利用すると予想しており、理論上は 4〜8TB/秒のピーク時のメモリ帯域幅と、最大 32〜64 teraFLOPS の BF16 パフォーマンスが可能になるという。これは 1GHz の動作クロックを前提としている。
それでも、高密度BF16でペタFLOPS近くもの性能を発揮できるNvidia H100のようなマシンと比べると、はるかに遅いです。しかし、前述の通り、FLOPSだけで全てが決まるわけではありません。特にAI推論のような帯域幅が制限されるワークロードではなおさらです。価格、消費電力、プロセスノードなど、考慮すべき要素は多岐にわたります。
- SiFiveは、Neoverse N2の潜在的なライバルとなる、データセンター向けP870-D RISC-Vコアを発表した。
- 一般ユーザー向けのRISC-V PCIe 5 SSDコントローラは14GB/秒を達成
- アリババの研究部門は、サーバークラスのRISC-Vプロセッサを今年中にリリースすると約束している。
- TenstorrentのBlackholeチップは768個のRISC-Vコアとほぼ同数のFLOPSを誇る
このため、ロンコ氏は、SiFiveのXMクラスターがAIトレーニングにそれほど広く使用されることはないだろうと予想しています。とはいえ、設計は8つのクラスターに限定されていません。
ロンコ氏は、設計のスケールアウト可能性について明言を避けました。これはおそらくプロセス技術とダイ面積に左右される部分が大きいでしょう。しかし、同社の製品スライドによると、512個のXMクラスターは実現可能範囲内にあるようです。繰り返しになりますが、これは顧客がそれぞれのアプリケーションに適切なものを判断することになります。
SiFiveは、最大512個のXMクラスターを統合することで4ペタフロップスのAI性能を実現できると示唆している – クリックして拡大
エンドユーザーが実際に熱や電力の制限に直面することなく1GHzのクロック速度を維持できると仮定すると、512 XMクラスターは、約4ペタFLOPSのBF16マトリックスコンピューティングを誇るNVIDIAの次期Blackwellアクセラレータに匹敵することになります。ちなみに、NVIDIAの最上位スペックのBlackwell GPUは、2.5ペタFLOPSのBF16パフォーマンスを誇ります。
SiFive 社は、新しい XM クラスターに加えて、RISC-V アーキテクチャの導入障壁を低減するために、SiFive カーネル ライブラリのオープン ソース リファレンス実装も提供すると発表しました。®
追記: Armは今週、PyTorchとExecuTorchにKleidiライブラリを追加すると発表しました。これにより、これらのフレームワークを使用するアプリは、デバイスのホストArmコアを利用してAI処理を高速化できるようになります。これは、専用アクセラレータではなく、CPU内の専用命令を用いた高速化です。