Hot Chips月曜日にシリコンバレーで開催された Hot Chips シンポジウムで、IBM と Intel はそれぞれ、今後発売されるプロセッサに関する詳細をいくつか明らかにした。
Big Blue からは、「帯域幅の獣」と呼ばれる Power9 ファミリーの追加製品、そして Chipzilla からは Spring Crest というコードネームの Nervana ニューラル ネットワーク プロセッサ。
私は力を得た
まずはIBMから。同社はPower9ファミリーの最新かつ最終設計となるAdvanced IO(AIO)を発表し、2020年に発売予定です。この14nmプロセス技術による製品は今年発売される予定でしたが、最終的に登場すると、最大24個のSMT4コアを搭載し、最大持続システムメモリ帯域幅は650GB/sになるとIBMは発表しています。また、OpenCAPI 4.0もサポートするとのことです。IBMのHot Chipsプレゼンテーションのスライドで、Power9ファミリーとの比較を確認できます。画像はクリックすると拡大表示されます。また、2021年に発売が予定されているPower10にも注目してください。PCIe 5.0を採用しますが、これについては今のところ詳細がほとんどありません。
以下は、まだ発売されていないPower9 AIOの主な仕様です。CPUコア数は12または24基で、最大120MBのL3キャッシュ、PCIe 4レーン48本、CAPI 2.0接続レーン最大16本、そしてお馴染みのオンダイ圧縮・暗号化アクセラレーション、そして並列数値演算処理を高速化するNVIDIA GPUとのインターフェース用NVLinkサポートを備えています。IBMによると、1つのSMPシステムで最大16個のP9 AIOチップを使用でき、各チップは728mm角のダイに80億個のトランジスタを詰め込んでいるとのことです。
ここからがさらに興味深いところです。Power9 AIOは、OpenCAPIをベースとするオープンメモリインターフェース(OMI)に対応するダイレクトアタッチドRAMを搭載しています。このプロトコルは25.6GHzの信号を使用し、最大650GB/秒の転送速度を実現します。OMI RAMをP9 AIOに直接接続することも、Microchip社が発表したばかりのコントローラーを使用して、従来のDDR DRAM DIMMをOMIに接続することも可能です。IBMの試算によると、OMI-DDR4コントローラーを使用した場合の読み込みから使用開始までのレイテンシは、RDIMMで5~10ns、LRDIMMで約4nsです。OMIはIBMのCentaurメモリーの後継となるようです。
IBMによると、OMIではなくシステムRAMにアクセスする利点は、従来のDDR DIMMと比較して帯域幅が大幅に向上し、より多くのRAM容量をマシンに搭載できることです。これは、インメモリデータベースやアナリティクス、AI処理などに最適です。ただし、OMI RAMを購入するか、OMI対応コントローラーを備えたDDR DIMMを使用する必要があるようです。
最後に、P9 AOIでサポートされているOpenCAPI 4の概要をご紹介します。これは、兄弟OSであるOpenCAPI 3に非常に近いものです。OpenCAPIにより、プロセッサコアはアクセラレータとIOデバイスを一貫性を持って接続できるようになります。
前述の通り、この設計は来年まで一般提供されません。価格、消費電力、クロック速度といった具体的な詳細も、それまでは分かりません。これは、IBMがPowerの世界でこれから何が起きるのかを少しだけ垣間見せてくれるものと考えてください。IBMのPower9チップは、America's Summitをはじめとする大型スーパーコンピューターに搭載されています。
チップジラのスプリングクレスト、別名NNP-T、以前はNNP-Lとして知られていました
IntelはHot Chipsで、Spring Crestというコードネームで呼ばれるプロセッサを披露しました。これは、Nervana AIハードウェアチームが開発したNeural Network Processor for Training(NNP-T)としても知られています。Chipzillaの常套句として、このプロセッサには少々複雑な経緯があります。Spring Crestは当初NNP-Lとして知られ、2019年にリリース予定でしたが、開発プラットフォームへと転換され、その後NNP-Tに改名され、一般出荷は2020年となっています。しかし、大手クラウド企業は今年末までにこのプロセッサを入手する可能性があります。Nervanaの盛り上がりはまだまだ続きます。
NNP-T は、人工知能システムの開発の中でも集中的な部分である機械学習モデルのトレーニングを目的として設計されています。ソフトウェアが大量の情報を精査し、データ内のパターンを学習する際に、膨大な数値計算やベクトル計算のほとんどがここで実行されます。
インテルによると、Spring Crestは現時点ではインテルのライバルメーカーであるTSMCによって製造される予定だ。このコンポーネントは、BFloat16とFP32の演算処理を組み合わせることで、1秒あたり119兆演算(TOPS)を達成できるとされている。680mm 2のシリコン上に270億個の16nmトランジスタを搭載し、グリッド状に配置された24個のテンソルプロセッサ、最大1.1GHzのコア周波数、60MBのオンダイメモリ、その上に4 x 8GBのHBM2-2000 RAM、オンダイ管理CPUとシリアル通信、x16 PCIe 4インターフェースなどを備え、消費電力は合計150~250Wである。これらはすべて、60mm x 60mmの2.5Dパッケージの1,200mm 2インターポーザー上に搭載されている。
以下は、月曜日に行われたインテルの Hot Chips NNP-T 講演の主要スライドです。
各TPUには、基本的に数学コプロセッサを制御するためのマイクロコントローラが搭載されています。各TPUの命令セットは限定されていますが、カスタムマイクロコントローラ命令で拡張できるようです。機械学習ソフトウェアを作成するためのフレームワークは数多く存在し、Spring CrestはGoogleのTensorFlow、PyTorch、BaiduのPaddle Paddleなど、最も人気のあるフレームワークをサポートしています。Intelは、デバイスとの通信と制御のためのソフトウェアスタックを提供します。
NNP-T またはそれが何と呼ばれようとも、それが私たちのような凡人が購入できるよう実際に出荷が開始されたら、それについてさらに詳しく書きます。®
そして最後に… 2億ドルの資金調達を成し遂げた新興企業Cerebrasは、iPadサイズのTSMC製16nmプロセス、46,000平方ミリメートルのシングルダイプロセッサについて、選りすぐりの主要ジャーナリストに説明会を開き、宣伝活動を行ってきました。このプロセッサは、機械学習の演算処理に特化した最大40万個のコア、1兆2000億個のトランジスタ、100Pbpsのファブリック帯域幅、そして9PB/sで動作する18GBのオンチップRAMを搭載していると言われています。
世界最大のAIチップと称されるこのチップは、発売されるのは、まあ、いつか届くまで待たなければなりません。価格やその他の詳細は未発表です。また、専用の冷却装置が必要となるため、専用の箱に収納する必要があり、一部の顧客への出荷は今年後半まで開始されません。ただし、すでにプロトタイプがいくつか出回っているようです。
一方…私たちの姉妹サイトである The Next Platform では、AMD CEO の Lisa Su 氏による Hot Chips 基調講演を要約しています。