HPCブログ先週、NVIDIAは過去最大規模のGPUテクノロジーカンファレンス(GTC)を開催しました。その大きな成果は、GPUがコンピューティングプラットフォーム全体において、急速にコンピューティングの標準コンポーネント、多くの場合必須のコンポーネントになりつつあることです。まさに大きな成果であり、だからこそ多くの報道が軽薄な印象を受けています。
カンファレンスの前に、私が答えを期待していた上位 4 つの質問を共有しました。
リツイート 1 件、いいね 3 件で、Twitter で私がどれだけ人気があるのかもわかります。
質問の結果を簡単に分析してみましょう。
Q1. P100の次は何が起こりますか?
P100は昨年発表されたばかりですが、それ自体が大きな成果でした。過去1年間のNVIDIAの業績を見れば、人々は依然としてこのチップを待ち望んでいることが分かります。ですから、GTC17ではスライドウェアと、将来に関するマッチョなスペックをいくつか披露するだけで、おそらく大成功を収めたでしょう。もっと何か発表があるでしょうか?NVIDIAは期待を裏切りませんでした。実際のチップと詳細なスペック、そして実際のベンチマークを見ることができました。これは「では、次は何が来るのか?」という問いに対する非常に決定的な答えです。
V100(VoltaのV)は今年の第3四半期に登場予定で、P100(PascalのP)よりも明らかに上位のプロセッサです。KeplerとMaxwellに続くプロセッサで、アルファベット順で並べると分かりやすいでしょう。全体的にはP100の約1.5倍の速度ですが、ディープラーニングカーネルではAIワークロードに特化した新しいTensorコアのおかげで、理論上はなんと12倍の速度となります。全体としてはP100の5倍の速度が予測/主張されており、これははるかに現実的な目標です。
堅牢な 815mm2 の面積、さまざまな種類のフロップス、300W の電力を誇り、大きく、高速で、熱くなりますが、その性能を考えると最もエネルギー効率に優れたチップの 1 つになるほどのパワーを備えており、パフォーマンス優先モードまたはエネルギー優先モードで使用して、どちらか一方を最適化できます。
簡単に比較してみましょう。
コンピューティング速度の分類は、「理論上は可能だが、実際に目にすることはない」から「超えることはないと保証されているが、運が良ければ超える可能性もある」、さらに「最適化をうまく行えば可能」、そして「標準的な速度だが、それより低くなる可能性もある」まで様々であることを覚えておいてください。一般的に、最高速度だけでなく最低速度にも注目した方が良いでしょう。
急速に出現しているワークロード、および利用可能な最適化されたフレームワークとシステム ソフトウェアの場合、GPU やその他の形式、いわゆる高密度処理 (HDP) が最適です。
最近よく言われていることは、「デジタル化とは大量のデータを意味し、大量のデータの意味を理解することは、ますますHPCの問題かAIの問題のどちらかになりつつある」ということです。このチップはまさにそのスイートスポットを狙っています。
ではテンソルとは何でしょうか?
単一の数は「スカラー」(0次元、または「インデックス」)です。数の行は「ベクトル」(1次元、または「インデックス」)です。2次元の数字の行と列は「行列」です。テンソルは、このような数学的オブジェクトの一般化された定義であり、特定の変換規則に従うn次元オブジェクトです。
ディープニューラルネットワーク(DNN)では、計算すべき係数と追跡すべき集合を持つ「ニューロン」の層が幾重にも重なり、それらはすべてテンソルへと巧みに抽象化できます。テンソルは物理学、相対性理論、流体力学などの分野では共通言語ですが、AI分野での使用はIT用語の世界では新たな領域となります。おそらく、ほとんどのURLは既に使用されているでしょう!
では、ムーアの法則についてはどうでしょうか?
Nvidiaはこのチップについて、ピーク時のテラフロップス性能においてP100/Pascalの5倍、2年前に発売されたM40/Maxwellの15倍の性能向上を実現すると謳っています。計算してみると、確かにムーアの法則を上回る速度向上、実に4倍以上の性能向上です。
なぜ、どうやってそうなるのか、と疑問に思うかもしれません。答えはほぼこれです。かつては周波数を向上させ、同じ処理をより高速に実行し、1つのCPUを高速化するためにオンチップ回路をどんどん増やしていくことで速度を上げていました。まるで、より豪華な宮殿を建てていくようなものです。しかし、マルチコア、メニーコア、そしてキロコアのチップが登場したことで、すべてが変わりました。宮殿の代わりに、人々はマンションやホテルを建て始めました。そして、アプリ内に十分なスレッドとタスクがあり、それらすべてが稼働している限り、スループットが向上し、ターンアラウンドが速くなります。
V100は、5,120+2,560+640=8,320個の様々なコアを搭載し、8キロコアのチップです。バイト数ははるかに先ですが、コア数もバイト数と同じように数えられます。
Q2. クライアント側の新機能は何ですか?
Nvidiaは、4基のV100を搭載したデスクサイドマシン「DGX Station」を発表しました。1.5kWという消費電力を考えると、大型で騒音の大きいファンを搭載しているのではないかと予想されますが、この筐体は液冷式です。閉ループ冷却なので配管工を呼ぶ必要はありませんが、ほぼ無音です。約7万ドルという価格は、一般的な「クライアント」マシンというよりは、「神々のラップトップ」と言えるでしょう。「パーソナルAIスーパーコンピューター」と謳われていますが、ワークステーションのような見た目で、実力も備えています。NvidiaのフラッグシップゲーミングGPUであるGeForce® GTX 1080 Ti(Pascal GPUベース)の後継機については、今のところ情報がありません。
Q3. OpenPower とは何ですか?
サーバーアーキテクチャにおける真の争いは、Intelの社内連合と、いわゆる「反逆同盟」として知られるIBMのOpenPower業界連合との間で繰り広げられると我々は依然として考えています。IntelはXeon Phi、Altera、Omni-Path(そしてNervana/Movidius)といったオールスターチームを擁し、OpenPowerはPOWER、Nvidia、Xilinx、Mellanox(そしてTrueNorth)といった独自のドリームチームで対抗します。オールインハウスモデルはシームレスな統合と一貫した設計を約束し、拡張チームはベスト・オブ・ブリードのアプローチを提供します。どちらの陣営も非常に強力で、それぞれに長所があり、戦略、設計、実装において明確な差別化が図られています。
昨年、RebelsはGTCと共同でイベントを開催しました。今年は開催されませんでした。堅実な競争への継続的な熱意と、Rebelsが順調に進んでいることを示す市場調査にもかかわらず、昨年のOpenPowerの活動は期待ほど活発ではありませんでした。
そのため、V100にはるかに高速なNVLink相互接続技術が搭載されているのを見て、非常に安心しました。第2世代のNVLinkは300GB/秒でデータを転送します。つまり、25GB/秒のリンクが6つあり、合計150GB/秒、入出力合計300GB/秒のデータ転送速度となります。
ここでもう一つ注目すべきは、マルチGPU/CPU構成におけるスケーラビリティの向上です。NVLinkは、IBM Power 9 CPUのCPUマスタリングとキャッシュコヒーレンスをサポートしています。これは非常に大きなメリットであり、Rebelsにとって大きな後押しとなります。
Q4. 新しい AI チップで先行し続けるための計画は何ですか?
AIチップの競争は激化しており、今後数ヶ月で複数の新しいAIチップとアーキテクチャが登場すると予想されます。これらのチップはAIワークロードに最適化されており、64ビット未満の演算命令や積和演算(MAC)命令、複数のパイプライン、整数と浮動小数点のパスの分離、関連するレジスタ/メモリ設計などを備えています。
V100の新しいTensorコアに気づいて、一体何なのかと疑問に思った方もいるでしょう。各Tensorコアは1サイクルあたり64回の積和演算を実行できます。16ビットの数値を32ビットの中間値に乗算し、それを32ビットの数値に加算して、結果として32ビットの数値を生成します。これは、混合精度で1サイクルあたり2回のFP演算に相当します。これらのコアは640個(ストリーミングマルチプロセッサ(SM)ごとに8個、SMは80個)あり、すべて1.455GHzで動作します。つまり、64*2*640*1.455=119+TFLOPSとなり、これが120Tensor TFLOPSの計算結果です。
P100はAI処理において非常に優れた性能を発揮しましたが、今回のアップデートによってその性能は飛躍的に向上しました。精度をさらに下げて、さらに高速化することは可能でしょうか?もちろん可能です。しかし、精度を下げると、それを補うために、振る舞いの良い問題を扱うか、ニューロン数や層数を増やす必要があります。V100は他の多くのワークロードにも十分対応できます。これは、AIに特化しすぎて他のワークロードには不向きになってしまうチップとの明確な違いです。
他に何か?
Nvidia は、Holodeck と呼ばれる没入型コラボレーション スイートも発表し、解像度を向上させる複雑なレイ トレーシング グラフィックスにおけるディープラーニングの活用方法、ドライバーを支援できる自動運転車テクノロジ、AI ソフトウェア スタックとコンテナーを使用した優れた作業、現在 8xV100 を搭載する更新された DGX サーバー、プロビジョニング可能な CPU と GPU の比率を簡単に変更できるクラウド コンピューティング用サーバー HGX-1 を披露しました。