IBM Research は、AI 推論用のミックスドシグナル アナログ チップを開発しました。このチップは、消費電力を大幅に削減しながら、GPU などのデジタル チップに匹敵するパフォーマンスを実現できる可能性があると主張しています。
現時点では研究プロジェクトとされているこのチップの詳細は、先週Nature Electronics誌に掲載された論文で発表されている。このチップは、相変化メモリとデジタル回路を組み合わせ、チップ上に保存されたネットワークの重みに対して直接行列ベクトル乗算を実行する。
これはIBMがHERMESプロジェクトの一環として開発した最初のチップではないが、最新版は2021年のIEEE VLSIシンポジウムで発表された34タイルのチップとは対照的に、64タイル(コンピューティングコア)で構成されている。また、実用的な低電力アナログAI推論アクセラレータチップを実現するために必要となる多くの構成要素を実証しているとIBMは主張している。
たとえば、64 個のコアはオンチップ通信ネットワークを介して相互接続されており、チップには畳み込み層の処理に必要な追加機能も実装されています。
ディープ ニューラル ネットワーク (DNN) は、基盤モデルや生成 AI など、AI の最近の進歩の多くを推進してきましたが、現在のアーキテクチャではメモリと処理ユニットは分離されています。
AIチップは、ウェアラブルやドローンでの使用のために抵抗性RAMに人工ニューロンを追加します
続きを読む
IBM によると、これはメモリと処理装置の間でデータを絶えずシャッフルする計算タスクを意味し、これが処理速度を低下させ、エネルギー効率の悪い主な原因となっている。
IBM のチップは、アナログ インメモリ コンピューティング (AIMC) と呼ばれるアプローチを採用しており、相変化メモリ (PCM) セルを使用して重みをアナログ値として保存し、計算も実行します。
チップの 64 個のコアのそれぞれには、256×256 の重み行列を格納し、コアの外部から提供される入力アクティベーションを使用してアナログ行列ベクトル乗算を実行できる PCM クロスバー アレイが含まれています。
これは、各コアが、PCM デバイスのアナログ コンダクタンス値としてエンコードされた重みを使用して、DNN モデルのレイヤーに関連付けられた計算を実行できることを意味します。
デジタル コンポーネントは、畳み込み層と長短期記憶 (LSTM) 層を持つネットワークを処理するときに必要な追加のデジタル後処理機能を提供する 8 つのグローバル デジタル処理ユニット (GDPU) の列で構成されています。
本論文では、PCMセルが、電流振幅と時間幅が可変のプログラミングパルスを生成するデジタル-アナログコンバータを用いてどのようにプログラムされるかに焦点を当てています。その後、コアはパルス幅変調(PWM)された読み取り電圧パルスをPCMアレイに印加することで、行列-ベクトル乗算を実行します。PCMアレイの出力は、256個の時間ベースA/Dコンバータのアレイによってデジタル化されます。
もちろん、これは単純化しすぎです。Nature Electronics に掲載された IBM の論文では、各 AIMC 内の回路がどのように動作してディープラーニング モデルの重みを処理するかについて、詳細に説明しています。
この論文では、このチップがCIFAR-10画像データセットで92.81パーセントと言われるソフトウェアとほぼ同等の推論精度を達成する方法も実証されている。
IBM はまた、測定された行列ベクトル乗算スループットが 1 平方ミリメートルあたり毎秒 400 ギガ演算 (400 GOPS/mm 2 ) であり、抵抗メモリに基づく従来のマルチコア チップよりも 15 倍以上高いと同時に、同等のエネルギー効率も達成していると主張しています。
IBM は GPU などの他の AI 処理システムとの有用なエネルギー効率比較を提供していないようですが、テスト中に ResNet-9 への単一の入力が 1.52 μs で処理され、1.51 μJ のエネルギーを消費したと述べています。
IBM の論文では、レイヤー間のアクティベーション転送とローカル メモリ内の中間アクティベーション ストレージを可能にする追加のデジタル回路により、このようなチップ上で完全にパイプライン化されたエンドツーエンドの推論ワークロードを実行できるはずだと主張しています。
著者らは、AIMC アクセラレータが GPU などの既存のデジタル ソリューションの強力な競争相手になるためには、重量密度のさらなる向上も必要になると述べています。
テストに使用されたチップは、ニューヨークにある IBM アルバニー ナノテク センターで 14nm プロセスを使用して製造され、最大 1GHz の行列ベクトル乗算クロック周波数で動作します。
- IBMは、管理作業の軽減も目的としたメジャーアップグレードでz/OSにAIを注入
- ブルーオリジンはスタッフに次のロケットに乗るよう指示、デスクに戻るよう指示
- AWSとIBM Netezzaがテーブル形式の対決でIcebergをサポート
- RHELドラマ、ChromeOSなど…私たちのハゲタカたちがLinuxの最新情報について自由に語ります
AI向けアナログチップの開発に取り組んでいるのはIBMだけではありません。昨年、Nature誌に掲載された別の研究論文では、抵抗性RAM(RRAM)に重みを保存する実験的なチップが紹介されました。このチップは、典型的なリアルタイムキーワードスポッティングタスクを実行するのに2マイクロワット未満の電力しか消費しないと推定されています。
対照的に、GPUを用いたAIタスクに使用される一般的なコンピューティングインフラストラクチャは、ますます電力を消費するようになっています。今月の報道によると、一部のデータセンター事業者は、AI処理向けのインフラストラクチャとしてラックあたり最大70キロワットをサポートしているのに対し、従来のワークロードでは通常、ラックあたり10キロワット以下しか必要としません。®