HPCブログ今週、中国・無錫で開催される2017年アジア学生クラスターコンペティション(ASC)決勝戦では、わずか20の出場枠を巡って230以上の大学チームが競い合いました。20チームが参加するこのクラスターコンペティションは、世界史上最大規模です。まさにその通りです。
各チームは5人の学部生とコーチ1名(通常は教員アドバイザー)で構成されます。生徒たちは独自のクラスターを設計し、ソフトウェアを最適化した後、ASCイベントで他のチームと対戦します。すべてのベンチマークとアプリケーションで最高のパフォーマンスを発揮したチームが総合優勝を果たします。銀メダル、最高LINPACK、そして様々なアプリケーションにおける最優秀最適化賞も授与されます。
例年通り、出場チームは百戦錬磨のベテランと、将来を嘱望される新人が混在する、実力派揃いです。今年の新チームには、中国海洋大学、ロシアのサンクトペテルブルク大学、中国の人民解放軍情報工学大学、中国東南大学、ワルシャワ大学、そして中国の濰坊大学が名を連ねています。
チームとその構成を簡単に見てみましょう。
20 チームすべてについて、また各チームがアーキテクチャ上の決定を下した理由について詳細に検討する時間 (またはスペース) はありませんが、構成を全体的に確認して、いくつかの洞察を引き出すことはできます。
ノード数:以前は、ノード数を見るだけで、チームがどの賞を狙っているかが簡単に分かりました。ノード数が非常に少ないチームは、アクセラレータの数が多く(ノードあたり少なくとも2つ)、LINPACKの最高賞を狙う傾向がありました。一方、ノード数が多く、GPUやその他のアクセラレータが少ない(あるいは全くない)チームは、総合優勝を狙う傾向がありました。
これを裏付けるにはもう少し調査が必要ですが、平均ノード数(ASC17時点で6.5ノード)は時間の経過とともに徐々に減少しているのではないかという予感がします。これは、GPUアクセラレーションノードが、典型的な学生向けクラスタに配備されるCPU数を着実に減らしていることを示しています。
近年の違いは、GPUアクセラレータ向けに最適化されたアプリケーションが増えていることです。そのため、小規模ノードのチームでも総合優勝を狙えるようになっています。一方、パフォーマンスの面では、より大規模で従来型のCPUのみのシステムは、やや時代遅れになりつつあります。
CPU コア:誰もが同じ 14 コアの Intel Xeon CPU を使用していますが、その数はそれぞれ異なります。そのため、CPU コア数は、少ない場合でも 112 個、多い場合でも 180 個と、範囲が広くなります。
ノードあたりのメモリ/総メモリ:これらのマシンに搭載できるメモリが多ければ多いほど良いと常々思っていました。しかし、最近はそうでもないかもしれません。繰り返しになりますが、超高速アクセラレータの台頭により、クラスター競争で競争力を維持するために必要な要素が変化し始めています。膨大な数のCPUと同等の量のRAMを搭載しても、数年前ほど効率的に仕事をこなせなくなっています。
このコンテストでは、クラスタメモリの総容量が、わずか265GB(大連大学)から1.28TB(北京航空航天基地)という巨大な規模まで、非常に幅広い範囲に及んでいます。私が注目したいのは、CPU/GPUの数は同じでもメモリ容量が異なるシステムで、アプリケーションパフォーマンスがどのように変化するかです。
アクセラレータ:今年のASC17では、GPUの妖精が学生たちにとても優しくしてくれました。どれくらい優しいかというと?ASC17に出場した20チームのうち15チームが何らかのGPUベースのアクセラレータを使用しており、そのうち13チームが最新のNVIDIA P100を搭載していました。これは市場価格にして約75万ドル相当のGPUに相当する計算になり、かなりすごいですね。
SC16で確認されたように、P100の追加により、LINPACKの最高スコアが12TF/sから31TF/sへとほぼ3倍に向上しました。今年のASCでは新たな記録が樹立されるでしょうか?そして、今後のコンテストでは高性能FPGAが登場するでしょうか?
今後の記事もどうぞお楽しみに。次はLINPACKの結果、チーム紹介ビデオ、そしてその他の応募結果です。最新情報を随時ご確認ください。