Groqは理解しにくいが、同社のAIチップはroqであると考えている:元Google社員の型破りな設計が顧客に出荷中

Table of Contents

Groqは理解しにくいが、同社のAIチップはroqであると考えている:元Google社員の型破りな設計が顧客に出荷中

元グーグル社員らが設立したAIチップのスタートアップ企業Video Groqは本日、自社のハードウェアを顧客に出荷していると発表した。

これにはGroq Nodeが含まれます。これは機械学習ワークロードを処理するために設計された5Uデータセンターグレードの筐体で、消費電力は3.3kW、最大6POPS(6ペタオペレーション/秒)、より正確には1秒あたり6京回のINT8演算処理能力を備えています。各Nodeには8枚のGroq PCIeカードが搭載され、200GイーサネットまたはInfiniband HDRを使用したあらゆるトポロジで相互接続できます。内部にはAMDの第2世代Epycプロセッサが2基搭載されており、この技術を統合しています。

これらのカードにはGroq社のカスタムAIアクセラレータチップが搭載されており、ResNet-50 v2のバッチサイズ1で毎秒18,900回の推論を実行できるとされている。同社は、Tensor Streaming Processor(TSP)と呼ばれるこのチップについて、「100分の1ミリ秒単位の応答性を備えた、市販されている最速のAI/MLアクセラレータ」であり、NVIDIAなどのアクセラレータを凌駕するとしている。

このチップは、ASICと外部インターフェースを構成する構成要素を提供したMarvell社の協力を得て開発されたことをご承知おきください。一方、Groq社は、このチップの心臓部であるAIアクセラレーションに注力しました。ハードウェアにアクセスするためのソフトウェア開発キットも提供されており、Nimbix社はクラウド上でTSPのインスタンスをホストしています。

Groqノードボックス

ノードまで良好…5U Groqノードの外観。出典:Groq

このプロセッサは、Global Foundries社製の14nmプロセスを採用しています。1.25GHz動作時に最大1 INT8 POPS、1GHz動作時に最大0.82 INT8 POPS、FP16使用時には1GHz動作時に最大205 TFLOPSの性能を発揮します。オンダイメモリ帯域幅は80TB/sです。The Linley Groupのアナリストによる詳細なレポートによると、チップメモリ​​は220MB、ダイ面積は725mm²286億個のトランジスタを搭載し、通信にはPCIe 4を採用しています。今年中に量産出荷が開始される予定です。

Groq社の社員による低レイテンシTSPアーキテクチャの説明論文はこちら[PDF]からご覧いただけます。これは一般的なマイクロプロセッサやアクセラレータとは異なり、従来のものをすべて覆すほどの性能です。数百個の機能ユニットからなるグリッドを通して命令を垂直方向にクロックし、これらのユニットを通していわゆるスーパーレーンと呼ばれるデータを水平方向にクロックします。

コンパイラは、これらのデータストリームを、パイプラインを流れるバイト列と必要な命令列が一致するようにスケジューリングします。これは基本的に、144ビット幅のVLIWアーキテクチャのように見えます。命令のスケジューリングにコンパイラを利用するプロセッサは、Groqが初めてではありません。Groqの場合、結果として、1サイクルあたり40万回を超える整数積和演算を実行できる可能性があります。

Groqは、Google社員によって設立され、Googleのシリコンバレー本社に近いマウンテンビューに拠点を置き、共同創業者兼CEOのジョナサン・ロス氏がGoogleのカスタムAIアクセラレータであるTPU(Tensor Processing Unit)の開発に携わったという、興味深い歴史を持っています。このスタートアップの技術概要はこちらでご覧いただけます。また、より技術的な紹介は下記をご覧ください。なお、TSPはTPUの焼き直しではありません。

YouTubeビデオ

私たちの姉妹サイト「The Next Platform」のNicole Hemsothが昨年末にGroqに注目し、Rossにインタビューしました。そのインタビューから、このスタートアップはトレーニングよりも推論に主眼を置いていることが明らかになりました。Groqはニューラルネットワークのトレーニングを、固定コストで一度に大量の計算リソースを投入することで実行できる作業と捉えていますが、推論は需要に合わせて効率的に拡張でき、動的かつリアルタイムで実行できなければなりません。4,000台のサーバーを使って40時間かけてモデルをトレーニングすることはできますが、モデルが1秒以内に4万人のユーザーに対して意思決定を行う必要がある場合はどうなるでしょうか?そこでGroqのTSPが活躍するかもしれません。

「最初のTPU導入時から、推論こそがはるかに大きな問題であることが明らかになりました」とロス氏はThe Next Platformに語った。「トレーニングはほぼ解決済みの問題です。精度や精密度を少しずつ向上させることはできますが、トレーニングにかかる​​時間はもはやそれほど大きな問題ではありません。コストは下がり、費用は一度限りで、継続的に発生するものではありません。」

「推論は本質的に大きな市場です。トレーニングは機械学習研究者の数に応じてスケールし、推論はクエリ数やユーザー数に応じてスケールします。トレーニングはコンパイルであり、推論は実行です。」

「実際、推論ははるかに困難です。トレーニングは多額の資金を投入することで解決できます。システムレベルでは、既存のアーキテクチャを採用し、複数のチップを組み合わせ、十分なゲインを得ることで解決できます。推論では、それを大規模なデバイス群、おそらく数百万台ものサーバーに展開し、それぞれに推論デバイスを搭載することになります。」

ロス氏は、本日からオンラインで開催される今年のAIハードウェアサミットで、TSPアーキテクチャの詳細を発表する予定です。The Next Platformでも、さらに詳しい情報が掲載されています。®

Discover More