XDF Xilinx は、新しい Versal ファミリの FPGA (フィールド プログラマブル ゲート アレイ) に、ありとあらゆる機能を詰め込んでいます。
これらは、必要に応じてオンザフライで変更できる電子回路を備えたチップです。そのため、内部ロジックをあらゆるニーズに合わせて変形させることができます。通常、SystemVerilogなどの設計言語を使用してチップの動作を記述し、その記述はゲートアレイに送られるデータブロックに変換され、内部ロジックを構成します。
FPGAは通常、量産前のカスタムチップの試作に、あるいはメモリや周辺機器へのアクセスを制御することで他のチップ間の接続手段として使用されます。近年、エンジニアたちはFPGAを特殊なアクセラレータとして活用し、ネットワークパケットの検査や機械学習の計算といった処理を実行し、ホストCPUの負荷を軽減することを検討しています。
ザイリンクスは、今週米国サンノゼで開催された開発者フォーラムで発表したVersalファミリーで、こうしたエンジニアたちを惹きつけたいと考えている。FPGA設計者であるザイリンクスは、3月にこの技術を予告していた。このチップは、TSMCの7nmプロセスノードで製造される。このゲートアレイは、汎用GPUやDSPアクセラレータよりも高速で、カスタム高速シリコンの製造よりも柔軟性が高く、コストも抑えられると期待されている。
Versal ファミリーのブロック図 ... クリックして拡大
Versalシリーズは、オフロード回路の近くでアプリケーションコードを実行するために使用されるデュアルコアArm Cortex-A72 CPUと、リアルタイムコード用のデュアルコアArm Cortex-R5 CPUのクラスターに加え、多数のAIおよびDSP(デジタル信号処理)エンジン、一般的なプログラマブルロジック、そして100GEからPCIe CCIXまでの豊富なインターフェースを備えています。AI CoreシリーズとPrimeシリーズの両方に、セキュアブート、モニタリング、デバッグを実行するためのプラットフォームコントローラーが搭載されています。
バンドルされている数学および信号コプロセッサ エンジンに加えて実行したい追加処理はすべて、再プログラミング ロジック アレイで実行できます。
Versalブランドには現在、Versal AI CoreとVersal Primeの2種類があります。前者は、その名前から想像できるように、ハードウェアにおける機械学習の演算処理の高速化に重点を置いています。自動運転車やデータセンターのニューラルネットワークワークロードなどが考えられます。後者は、信号処理に重点を置いた、より一般的なスーパーFPGAです。無線LANや5Gなどが考えられます。ちなみに、以前のXilinxの最上位ゲートアレイは、Cortex-A53とCortex-R5を使用していました。
上記のブロック図において、アダプティブエンジンとは、階層的に配置することでレイテンシを低減し、特定のエンジンへのメモリ帯域幅を拡大できる再プログラム可能なロジックアレイとオンダイメモリの通称です。インテリジェントエンジンは、データ処理を実行するVLIW(超長命令語)およびSIMD(単一命令複数データ)処理ユニットです。
前述のフレーバーには、最終的には、ネットワーク エッジで 5W の電力で機械学習を行う Versal AI Edge、無線通信用の Versal AI RF、本格的な高性能アプリケーション用の Versal Premium、高帯域幅のメモリを必要とする製品向けの Versal HBM が加わる予定です。
エンジンをプログラムするためのソフトウェアライブラリとフレームワークが用意され、ハードウェア設計者は使い慣れたVivadoツールを使用してFPGAを構成できます。Amazon Annapurnaに倣い、Versalファミリを用いたスマートなネットワークインターフェースを開発する人々が現れることを期待しています。これらのカスタムNICは、ハイパーバイザーのネットワーク機能、暗号化などのワークロードをシリコン上で処理できるため、ホストCPUとハードウェアの負担を軽減できます。
Xilinx によると、Versal Prime シリーズは最大 3,080 個のインテリジェント エンジン、984,576 個のロジック ルックアップ テーブル、2.154m 個のシステム ロジック セルを搭載でき、1 秒あたり 31 兆回の 8 ビット整数演算 (適応型ロジック経由) または DSP エンジンの 32 ビット浮動小数点を使用した 5 TFLOP (INT8 の場合は 21.3 TFLOPS) を実現できます。
Versal AI コア シリーズは、最大 400 個の AI エンジン、1,968 個のインテリジェント エンジン、899,840 個のロジック ルックアップ テーブル、1968 万個のシステム ロジック セルを搭載でき、1 秒あたり 133 兆回の 8 ビット整数演算 (AI エンジン経由) または DSP エンジンの 32 ビット浮動小数点を使用した 3.2 TFLOP (INT8 の場合は 13.6 TFLOPS) を実現します。
Reg読者の皆様、そしてその他すべての皆様に無料でご提供:Xilinx FPGA向けArm Cortex-M CPU
続きを読む
弊社の姉妹サイトThe Next Platformにある Timothy Prickett Morgan による Versal の分析と、Nicole Hemsoth による FPGA パフォーマンスに関する特集記事をここでご覧いただけます。
一方、Xilinx は Versal ファミリーに関する簡単な技術論文をこちらで公開しており、AI Core シリーズの仕様は こちら、Prime シリーズの仕様は こちら で公開しています。
このチップは2019年後半に一般発売される予定だと伝えられているが、丁寧にお願いしてザイリンクスにとって意義深い存在であれば、早期アクセス プログラムに参加することもできる。
最後に、ザイリンクスは、UltraScale+ FPGAを使用してAI演算などの処理をハードウェアで実行し、ホストプロセッサの負荷を軽減するディープニューラルネットワークアクセラレータカード2枚セット「Alveo」を発表しました。デュアルスロットのフルハイトカードはそれぞれ64GBのDDR4 RAMを搭載し、QSFP28とx16のPCIe 3.0インターフェースを2つ備え、最大225Wの消費電力を誇ります。
Alveo U250は1,341Kのロジックルックアップテーブル、2,749Kのレジスタ、11,508のDSPスライスを搭載し、U200は892Kのルックアップテーブル、1,831Kのレジスタ、5,867のDSPスライスを搭載しています。機械学習推論に適した8ビット整数演算を使用した場合、U250は1秒あたり最大33.3兆回の演算を実行でき、U200は1秒あたり最大18.6兆回の演算を実行できます。
Xilinx社によると、U250とU200は、バックエンドで情報を処理するデータセンターサーバーのリアルタイム推論に特に適しており、パフォーマンスとレイテンシの点でGPUベースのアクセラレータを凌駕し、ホストの汎用CPUを完全に凌駕するとのこと。ハードウェアは現在販売中で、価格は1台あたり8,995ドルから。技術概要はこちらをご覧ください。
AMDはザイリンクスと提携し、Alveo U250カード8枚とEpycサーバープロセッサ2台を組み合わせ、画像分類AIソフトウェアGoogLeNetを用いて毎秒3万枚の画像を処理する高速ニューラルネットワークを構築しました。これは世界記録だそうです。®