韓国のAIチップ新興企業FuriosaAIは今週、LGのAI研究部門が同社のAIアクセラレータを大規模言語モデルのExaoneファミリーを実行するサーバーに採用したことで、大きな顧客獲得を果たした。
浮動小数点演算能力、メモリ容量、帯域幅はすべてAIパフォーマンスにおいて重要な役割を果たしますが、LGがFuriosaのRNGD(「レネゲード」と発音)推論アクセラレータを選んだのは、速度とフィード性能のためではありませんでした。むしろ、電力効率が理由でした。
「RNGDは、優れた実世界パフォーマンス、総所有コストの劇的な削減、そして驚くほど簡単な統合という魅力的なメリットの組み合わせを提供します」と、LG AIリサーチの製品ユニットリーダーであるキジョン・ジョン氏は声明文で述べた。
RNGDのスペックシートをざっと見てみると、かなり控えめなチップであることがわかります。浮動小数点演算性能は、16ビット精度か8ビット精度かによって256~512テラフロップスです。メモリ容量もかなり少なく、HBM3スタック2つで48GB、帯域幅は約1.5TB/秒です。
FuriosaAIのRNGD PCIeカードの概要は次のとおりです - クリックして拡大
AMDやNVIDIAの最新GPUと比較すると、Furiosaがわずか180ワットの電力でこれだけの性能を実現しているという事実を考えると、RNGDはそれほど競争力があるようには見えません。LGの調査によると、自社開発のExaoneモデルファミリーにおけるLLM推論において、RNGDはGPUよりも最大2.25倍も電力効率が高いことが分かりました。
興奮しすぎる前に言っておくと、問題の GPU は Nvidia の A100 であり、かなり古くなってきています。2020 年にパンデミックが始まったばかりの頃にデビューしたのです。
しかし、FuriosaAIのCEO、ジューン・パイク氏がEl Regに語ったところによると、NvidiaのGPUはA100のデビュー以来5年間で確かに強力になったが、そのパフォーマンスはエネルギー消費量の増加とダイ面積の拡大を犠牲にして得られたものだという。
単一の RNGD PCIe カードでは、純粋なパフォーマンスでは Nvidia の H100 または B200 アクセラレータに匹敵することはできませんが、効率 (ワットあたりに絞り出せる FLOPS 数) の点では、これらのチップは想像以上に競争力があります。
パイク氏は、同社の効率性における優位性の多くは RNGD の Tensor Contraction Processor アーキテクチャによるものだと述べ、このアーキテクチャでは行列乗算を実行するのに必要な命令が GPU よりもはるかに少なく、データの移動が最小限に抑えられるとしています。
これらのチップは、RNGD の HBM の使用からも恩恵を受けており、Paik 氏によると、L40S や RTX Pro 6000 Blackwell カードなど、Nvidia のローエンド製品の一部で見られるような GDDR に依存するよりもはるかに少ない電力で済むという。
ワットあたり約1.4テラフロップスのRNGDは、実際にはA100よりもNVIDIAのHopper世代に近い性能です。RNGDの効率性は、LLM推論においておそらくより重要な要素であるメモリ帯域幅に焦点を当てると、さらに明確になります。一般的なルールとして、メモリ帯域幅が広いほど、トークンの吐き出し速度は速くなります。
ここでも、RNGDのメモリ速度は1.5TB/秒と、特に高速とは言えません。NvidiaのH100は、80GBという大容量と3.35TB/秒から3.9TB/秒の帯域幅を提供しています。しかし、このチップの消費電力は2倍から3.9倍にもなります。
H100 SXMモジュールとほぼ同じワット数で、RNGDカード4枚を合計2ペタフロップスの高密度FP8、192GBのHBM、そして6TB/sのメモリ帯域幅を実現できます。これはNvidiaの最新世代Blackwell製品にはまだ遠く及ばないものの、RNGDの純粋な速度とフィードから想像するよりもはるかに近い性能です。
また、RNGD は推論のみを考慮して設計されているため、モデルは、テンソル並列処理などの手法を使用して複数のアクセラレータに分散したり、パイプライン並列処理を使用して複数のシステムに分散したりすることも可能です。
実世界テスト
LG AIは、自社製のExaone 32Bモデルを16ビット精度で実行するために、テンソル並列構成の4枚のRNGD PCIeカードを実際に使用しました。パイク氏によると、LGはチップの実用性を検証する際に、非常に具体的なパフォーマンス目標を設定していました。
特に、制約には、LLM が応答を生成し始めるまでに待機する必要がある時間を測定する最初のトークンまでの時間 (TTFT) が含まれており、3,000 トークンの比較的控えめなプロンプトの場合は約 0.3 秒、30,000 トークンのより大きなプロンプトの場合は 4.5 秒です。
ご参考までに説明すると、これらのテストは中規模から大規模の要約タスクに似ており、短いプロンプトよりもチップのコンピューティング サブシステムに大きな負荷がかかります。
LG は、バッチ サイズ 1 で 1 秒あたり約 50 ~ 60 トークンを生成しながら、このレベルのパフォーマンスを達成できることを発見しました。
Paik氏によると、これらのテストはFP16を使用して実施されました。比較対象となるLGのA100sは、ネイティブで8ビット浮動小数点演算をサポートしていないためです。FP8にダウングレードすると、モデルのスループットは実質的に2倍になり、TTFTはさらに低下すると考えられます。
複数のカードを使用することには、いくつかの固有の課題が伴います。特に、モデルの重みと計算を4枚以上のカードに分散させるテンソル並列処理は、ネットワークへの負荷がかなり高くなります。
チップ間で毎秒1テラバイト以上の速度でデータをやりとりできる高速な独自のNVLink相互接続を搭載していることが多いNvidiaのGPUとは異なり、Furiosaはカードあたり最高128GB/秒の古き良きPCIe 5.0を採用しています。
相互接続のボトルネックとオーバーヘッドを回避するために、Furiosa はチップ間の直接メモリアクセス操作をオーバーラップするようにチップの通信スケジュールとコンパイラを最適化したと述べています。
しかし、RNGDはより大きなバッチサイズでの数値を公開していないため、このアプローチがどれほどスケールするかを正確に判断することは困難です。バッチサイズが1の場合、テンソル並列演算の数は比較的少ないと、彼は認めています。
Paik氏によると、バッチ64でも個々のパフォーマンスは20~30%しか低下しないとのこと。つまり、同じ構成で1秒あたり2,700トークン近くの総スループットを達成し、かなり多くの同時ユーザーをサポートできるはずだということです。しかし、具体的な詳細がないため、推測することしかできません。
- 共和党員、トランプ政権の中国へのGPU販売再開決定を批判
- TSMCはアリゾナ工場建設により、ハイエンドチップの30%を米国で生産することを目指す
- エヌビディア、トランプ政権の承認を得て中国への販売を再開へ
- 報告書は、新しいAIデータセンターのための発電所建設を減速するよう警告している
競争環境
いずれにせよ、Furiosa のチップは十分に優れているため、LG の AI 研究部門は現在、Exaone モデルを利用する企業に RNGD を搭載したサーバーを提供することを計画しています。
「幅広いオプションを徹底的にテストした結果、RNGD が Exaone モデルの導入に非常に効果的なソリューションであることがわかりました」と Jeon 氏は述べています。
NvidiaのRTX Pro Blackwellベースのシステムと同様に、LGのRNGDボックスは最大8基のPCIeアクセラレータを搭載します。これらのシステムは、Furiosa氏が「高度に成熟したソフトウェアスタック」と表現する、人気のモデルサービングランタイムであるvLLMのバージョンを含むソフトウェアスタックを実行します。
LG は、ドキュメント分析、ディープ リサーチ、データ分析、検索拡張生成 (RAG) 用の一連のフレームワークをバンドルした ChatExaone と呼ばれるエージェント AI プラットフォームも提供する予定です。
フュリオサの説得力はLGだけにとどまりません。ご存知の通り、Metaは今年初めにこのスタートアップ企業を8億ドルで買収しようとしたと報じられましたが、最終的にフュリオサの幹部を説得して王国の鍵を渡すことは叶いませんでした。
Furiosa は、自社製ハードウェア上で設計およびトレーニングされた独自の AI モデル、ソフトウェア、インフラストラクチャに対する需要の高まりから恩恵を受けています。
しかし、世界規模で競争するには、Furiosa にはいくつかの課題があります。特に注目すべきは、Nvidia と AMD の最新 GPU は、RNGD よりもはるかに高いパフォーマンス、メモリ容量、帯域幅を提供するだけでなく、私たちの推定ではエネルギー効率もかなり優れていることです。Nvidia のアーキテクチャは、ラックスケールアーキテクチャへの早期投資により、より高い並列処理能力を実現しており、これはチップメーカーがようやく取り入れ始めた設計ポイントです。
とはいえ、RNGDの設計プロセスが2022年に開始されたことは注目に値します。これは、OpenAIのChatGPTがAIブームの火付け役となる前のことです。当時、言語モデルに関してはBertのようなモデルが主流でした。しかし、Paik氏はGPTが普及し、その基盤となるアーキテクチャが新たな標準になると確信しており、HBMメモリとGDDRメモリのどちらを使用するかといった判断にも影響を与えました。
「振り返ってみると、もっと積極的に賭けて、HBM(スタック)を4つ用意し、1つのパッケージにもっと多くのコンピューティングダイを搭載するべきだったと思う」とパイク氏は語った。
Nvidia、AMD、SambaNova など、数多くのチップ企業が、レチクルの制限を超えてチップを拡張するためにこのアプローチを採用しています。
後知恵だが、Furiosa はテンソル圧縮プロセッサ アーキテクチャ、HBM 統合、およびソフトウェア スタックを実証できたので、同社に必要なのはアーキテクチャのスケールアップだけだと Paik 氏は言う。
「非常に堅固な基盤を持っています」と彼は述べた。「このチップアーキテクチャをスケールアップすれば、最新のGPUチップすべてに十分対抗できると確信しています。」®