エクサスケールを待つ: IBM が Summit に参加した今、次に何が起こるのかを誰が決めるのでしょうか?

Table of Contents

エクサスケールを待つ: IBM が Summit に参加した今、次に何が起こるのかを誰が決めるのでしょうか?

コメントIBM の 200 ペタフロップス (1 秒あたり 20 万兆回の計算) の Summit スーパーコンピューターが先週金曜日にオークリッジ国立研究所で公開され、スケールアップすることで、一部のアプリケーションでエクサスケールのコンピューティング能力を発揮できることが証明されました。

これは 1,000 ペタフロップス、つまり 1 秒あたり 1 京回の浮動小数点演算に相当します。

比較すると、Cray/Intel Aurora スーパーコンピュータ プロジェクトは、200Gbit/s OmniPath 2 で相互接続された 50,000 個の x86 ノードで 180 petaFLOPS を達成しました。

これらのノードは、IntelのマルチコアPhiコプロセッサのKnights Hillバージョンで拡張される予定でした。しかし、Knights Hillの開発は2017年11月に中止されました。Auroraは、再設計されたPhiプロセッサを搭載したエクサスケールシステムとなるAurora 2に取って代わられました。Aurora 2は2021年に提供開始予定です。

米国エネルギー省は、Coral-2プログラム(Coralはオークリッジ、アルゴンヌ、リバモアの3つの国立研究所の共同事業)を通じて、エクサスケール・コンピュータの開発に一部資金を提供しています。最初のCoralプログラムはAuroraシステムとSummitシステムを生み出し、Summitシステムは2014年にIBMによって開始されました。CrayとIntelは2015年4月にAuroraの開発に2億ドルの資金提供を受けました。Auroraは今年中に納入される予定でしたが、コプロセッサ設計の失敗により実現しませんでした。

AMD、クレイ、HPE、IBM、インテル、Nvidiaの6社の入札者は、エネルギー省からCoral-2の提案依頼に応じるよう要請され、一部または全員が5月24日までに回答した。個々の入札者は明らかにされておらず、入札内容は現在審査中である。

サーバー/HPC システム ビルダーには Cray、HPE、IBM の 3 社があり、プロセッサ/コプロセッサ ベンダーには AMD、Intel、Nvidia の 3 社があります。

Cray/Intel が Aurora の後継 (A21 と呼ばれる) に入札していると推測できます。また、HPE エクサスケール システムの側面を検討した結果、HPE/AMD のパートナーシップが実現可能である可能性が示唆されました。

サミットでは IBM エクサスケール システムについてのヒントが示されました。これについて、これから詳しく調べてみます。

サミットノード

Summitはわずか4,608ノードで、AuroraのX86ノードよりも強力です。デュアルレール100ギガビットEDR InfiniBandで相互接続されています。Nicole Hemsothが姉妹誌The Next Platformで指摘したように、Summitのノード数は、オークリッジの近隣拠点で米国のスーパーコンピュータ速度記録保持者であるTitanの18,688ノードよりもはるかに少ないものの、「消費電力は9メガワットから13メガワットにしか増加せず、5倍から10倍のパフォーマンスを実現しています」。

各ノードは基本的に AC922 サーバーで、22 個のコアを持つ 2 つの 3.1GHz Power9 CPU と 6 個の Tesla V100 GPU があり、NVLink 2 で接続されています。ノードあたり 1.6TB のメモリがあります。

スーパーコンピュータ

米国、スーパーコンピューターの王座を中国から奪還、今のところ

続きを読む

ノードは、Mellanox デュアルレール EDR 100Gbit/s InfiniBand リンク (ノードあたり 200Gbit/s) で相互接続されます。

Summitのメインメモリは10PB以上で、IBMのSpectrum Scaleファイルシステムを採用しています。初期容量は約3PB、帯域幅は30GB/秒です。これらの数値は将来的に250PB、シーケンシャルIOは2.5TB/秒、ランダムIOは2.2TB/秒にまで拡張されます。ピーク時の電力使用量は13MWです。

HPEは、エクサスケールコンピュータは数十万、いや数十万のノード数を持つ可能性があると述べています。しかし、SummitをエクサFLOPSマシンに拡張できれば、つまり性能が5倍向上すれば、それは不可能です。

これは、現在の Power9/6xGPU ノード設定を使用した 23,040 個のノードを意味します。

しかし、NVIDIAは前進し、最新GPUアーキテクチャであるTesla V100を16基搭載し、6つのNVSwitchで接続した2ペタフロップスのGPUマシンHGX-2を発表しました。AmpereやTuringといった名前も浮上しており、Volta GPUの後継機が登場する可能性も十分にあります。

IBMはPOWER10 CPUの開発を進めており、2020年に登場予定です。Coral-2システムは2021年から提供開始される予定です。48個のコアを搭載し、より高速なNVLink 3相互接続をサポートする可能性があります。

Mellanox は、NDR 400Gbit/s InfiniBand スイッチング相互接続を開発しています。

Spectrum Scaleのパフォーマンスをさらに向上させることができるでしょうか? それを疑う理由はありません。

点と点をつなぐ

POWER10 CPU、より高速な NVLink を備えた強化された Nvidia GPU、NDR InfiniBand ノード間リンク、およびより高速で大規模な Spectrum Scale を使用したスケールアップされた Summit ノードは、23,040 ノード未満でエクサスケールへの道筋を提供できると提案します。

これらの技術を用いてSummitノードの性能を2.5倍にスケールアップすると、9,216ノードで1エクサフロップスに達します。消費電力には40MWの上限があり、Summitの電力消費量を2.5倍にスケールアップすると32.5MWになります(これは単純化した推計ですが、ノード技術が同じであれば、一般的に電力消費量はノード数/性能に正比例します)。これは魅力的な見通しです。

高帯域幅メモリやストレージクラスメモリなど、他にも役立つ技術があります。アプリケーションソフトウェアの書き換えを必要としない限り、これらも導入可能です。

HPEのマシンベースのエクサスケール技術セットは、HPEにとって冒険的で刺激的なものです。規模を拡大したサミットは、基本的に同じような内容で、冒険心は薄れるかもしれませんが、より安全な選択肢となるかもしれません。

Cray/Intel の Aurora A21 は、HPE のシステムと同様にリスクが高いように見えます。これは、Intel のコプロセッサ開発が行き詰まっているため (おそらく開発中の GPU が使用されるでしょう)、また、POWER10 と比較した Xeon のパフォーマンスが低いため、実証されていないコプロセッサ/GPU テクノロジを備えたノードが何万台も存在すると予測されるからです。

ビッグブルーはプロセッサ設計の殿堂に凱旋するかもしれない。そうだ、Xeon。x86?むしろex-86。パワーを感じろ、などなど。®

Discover More