NvidiaのTesla P100スーパーコンピュータのPCIeバス搭載

Table of Contents

NvidiaのTesla P100スーパーコンピュータのPCIeバス搭載

ISC Nvidia は、人工知能やスーパーコンピュータ級のワークロードを処理する標準的なサーバー ノード向けに、Tesla P100 アクセラレータ チップを PCIe カードに搭載しました。

P100は、4月にカリフォルニアで開催されたNVIDIAのGPU Tech Conferenceで発表されました。600mm²のダイに150億個のトランジスタを搭載した16nm FinFETグラフィックプロセッサですニューラルネットワークの学習、気象・粒子シミュレーションといった特殊なソフトウェア向けに、毎秒数兆回の演算処理を実行できるように設計されています。このGPUは、CPU-GPUページマイグレーションなどの高度な機能を備えたNVIDIAのPascalアーキテクチャを採用しており、その設計についてはこちらの記事で詳しく説明しています。

各P100には、GPUクラスターを接続するための40GB/秒のNVIDIA NVLinkポートが4つ搭載されています。NVLinkはNVIDIAの高速インターコネクトです。IBMのPower8+およびPower9プロセッサーはNVLinkをサポートし、ホストのPower CPUコアとGPUを直接接続できるようになります。

これらのビッグブルーチップは、アメリカ政府所有のスーパーコンピューターやその他の高負荷マシン向けに開発されています。現実世界では、私たち以外の人々はバックエンドのワークロードにx86プロセッサを使用しています。

現在、データセンターで使用されているコンピューティングプロセッサのほぼ100%はIntel製です。IntelはNVIDIAのNVLinkをサポートしておらず、サポートを急いでいるようにも見えません。そこでNVIDIAは、予想通り、そして計画通り、Tesla P100カードのPCIe版をリリースしました。これにより、サーバーメーカーはアクセラレータをx86マシンにバンドルすることが可能になります。つまり、GPUはNVLinkを介して相互に高速通信し、PCIeバスを介してホストCPUと通信できるということです。

PCIe P100には2つのバージョンがあります。1つは16GBのHBM2スタックRAMを搭載し、内部メモリ帯域幅は720GB/秒です。もう1つはより安価なバージョンで、12GBのHBM2 RAMを搭載し、内部メモリ帯域幅は540GB/秒です。どちらもPCIe Gen3 x16インターフェースで32GB/秒の転送速度を実現します。

64ビット倍精度演算ではそれぞれ4.7TFLOPS、32ビット単精度演算では9.3TFLOPS、16ビット半精度演算では18.7TFLOPSの性能を維持できます。これは、P100の性能基準である倍精度、単精度、半精度演算でそれぞれ5.3TFLOPS、10.6TFLOPS、21TFLOPSをわずかに下回る数値です。これは、PCIeカードの性能が抑えられているため、発熱が過度に大きくならないためです。GPUアクセラレーションノードを何台もラックに積んでラックを構成すれば、熱が溶けてしまう可能性があります。

NVLink P100 の消費電力は 300W ですが、16GB PCIe 版は 250W、12GB オプションはそれよりわずかに低い消費電力となります。

ちなみに、NVLink非対応サーバー向けにフルスピード・フルパワーのTesla P100カードが必要な場合は、入手可能です。システムメーカーは、追加の発熱に耐えられるマシン向けに、ボードにPCIe Gen3インターフェースを追加できます。ただし、PCIeのみが必要で、消費電力を気にする場合は、パフォーマンスが低く消費電力が低いPCIeオプションもご用意しています。

「PCIe P100は、主力システム、つまりマシンの大部分を占める主力製品向けになるだろう」と、NVIDIAのシニアプロダクトマネージャー、ロイ・キム氏はThe Registerに語った。キム氏は、各サーバーノードに4枚または8枚のカードを搭載できる可能性を示唆した。

これらのPCIeデバイスは2016年第4四半期まで登場せず、Cray、Dell、HP、IBM、その他のNVIDIAパートナーから販売される予定です。最終的な価格は販売店次第ですが、安価なオプションでもNVIDIA K80と同程度の価格になると言われています。K80は現在約4,000ドルです。

ちなみに、Nvidia は、P100 PCIe カードが今年後半に、スイスのルガーノにあるスイス国立スーパーコンピューティング センターのヨーロッパ最速スーパーコンピューターである Piz Daint マシンのアップグレード版に搭載される予定であると発表しました。®

追記: NVIDIAのAIトレーニングソフトウェアDigitsのアップデートにご注目ください。バージョン4には新しい物体検出技術が搭載されます。また、cuDNNライブラリのバージョン5.1には、様々なパフォーマンス強化が含まれています。一方、NVIDIAのGPU推論エンジン(GIE)は今週ついに一般公開されます。これは、データセンターグレードのアクセラレータから自動車やドローンのシステムオンチップに至るまで、あらゆるハードウェア上で動作するように設計されたコードで、アプリケーションがトレーニング済みモデルを用いて推論を実行できるようになります。

Discover More