ブルドーザー、スポーツスター、バンガー:頭を働かせろ、HPCキッズ

Table of Contents

ブルドーザー、スポーツスター、バンガー:頭を働かせろ、HPCキッズ

HPCブログ10年前にコンテストが始まって以来、学生によるクラスター競技システムとしては最も多様性に富み、刺激的なシステム群です。今年のコンテストでは、14のチームが、それぞれのアプリケーションに最適なシステム構成について、それぞれ異なるアイデアを披露しました。

以前の大会と比べていくつか変化が見られます。平均ノード数は、前回のISCおよびASC大会ではチームあたり6.5ノード、前回のASC大会では9ノードでしたが、今回は4.2ノード(外れ値の37ノードFAUシステムを除く)と大幅に減少しています。

また、アクセラレータの使用量が急増しており、平均的なチームでは 7.9 個のアクセラレータ (ほぼすべてが GPU) が使用されていますが、国際スーパーコンピューティング カンファレンス (ISC16) では 6.8 個、アジア学生クラスター コンペティション (ASC16) では 4.0 個でした。

今年のクラスタあたりの平均メモリ容量は減少しており、SC16ではシステムあたり760GB、ASC16では1.1TB、ISC16ではシステムあたり948GBでした。実に興味深い傾向です。

今年は目まぐるしい展開ですね。チームごとに見ていきましょう…

FAU:ドイツのフリードリヒ=アレクサンダー大学にとって、これは3回目のコンテストであり、アクセラレーションなしのクラスタを実行するのは初めてです。チームは、多数のCPUコア(592個)と圧倒的なメモリ容量(他を大きく引き離す)を活用することで、アプリケーションで優位に立つことを期待しています。

彼らは、37ノードのProLiant M510サーバーカートリッジを搭載した、高度にモジュール化されたHPE Moonshotシステムを使用しています。多くのチームと同様に、3,000ワットの電力上限を下回るためにプロセッサのスロットリングをしています。インターコネクトに関しては、統合された10GbE RoCEを利用しており、これによりRDMA over Ethernetを利用できます。

HUST:華中科技大学のこのチームは、地元武漢で開催されたASC16クラスターコンペティションで優勝しました。華中大学は、実績のある標準構成である4つのXeonノードと8つのアクセラレータを使用しています。

これは、ASC16で優勝し、ISC16への出場権を獲得した基本構成と同じです。大きな違いは、K80ではなくNVIDIA P100を使用していることです。これにより、クラスターのパワーが大幅に向上するはずです。HUSTチームは、競合チームの中で最もディスク容量が少ないため、処理能力は若干向上しますが、アプリケーションのストレージとチェックポイントに関してはディスク容量が不足しています。

Nanyang:シンガポールを拠点とするこのベテランチームは、南洋理工大学を拠点とし、ASC16のLINPACKバトルで優勝を果たしました。勝利の甘美な香りを味わい、さらなる勝利への渇望を募らせています。彼らは少数のノード数で多数のアクセラレータを搭載したシステムを好む傾向があり、再びLINPACKのタイトル獲得を狙っているのではないかと私は考えています。

SC16では、176個のCPUコアと合計8基のNVIDIA P100、512GBのメモリを搭載したDellの4ノードマシンを運用しています。これらはすべて、最近多くのチームが採用している高速100Gbps Mellanox EDR InfiniBandで接続されています。Nanyangは注目すべきチームであり、集団から抜け出す準備が整ったと感じています。

NTHU:台湾の国立清華大学も、数多くのクラスター競争に参加し、多くの勝利を収めている大学です。

NTHUはアクセラレータ導入でいち早く勝利を収めたチームの一つであり、常に堅実な競争力を誇っています。通常は8ノードのシステムを使用していますが、今年は4ノードのスポーツスターに軽量化しています。他のチームと同様に、176個のCPUコアに8基のNVIDIA P100 GPUを搭載しています。また、メモリは合計1TBと、平均を上回る容量を確保しています。

NE/オーバーン:ノースイースタン大学とオーバーン大学の合同チームは、SC16 大会で重大なハードウェア問題に悩まされたチームであることが判明しました。

この場合、「重大な」問題は、輸送中にクラスタ全体が紛失したことでした。彼らは展示会場をくまなく探し回り、クラスタリングに必要なシステムを見つける必要がありましたが、見事に解決しました。

残念ながら、最終的に3つのボックスを寄せ集めただけの、CPUコア44基、メモリ、NVIDIA K40アクセラレータ4基、AMD R9 Nanoアクセラレータ4基という小さな構成になってしまいました。しかし、土壇場でこれらすべてを組み立て、すべてのアプリケーションを実行できるようにしたのは、本当に素晴らしい仕事でした。真の学生クラスターコンペティション精神を発揮してくれた彼らに、心から敬意を表します。

北京大学:このチームは、クラスター競技用ハードウェアに関して、まさに限界を打ち破ろうとしています。OpenPOWERのあらゆる機器を駆使して動作させた初のチームです。彼らのクラスターは、4GHzで動作するPower 8+プロセッサーをデュアルノードで駆動し、合計32個のCPUコアを備えています。

このシステムの真にエキサイティングな点は、NVIDIA NVLinkコネクタを搭載し、Pekingの10基(TEN)のP100 GPUをCPUに最大80GBpsで直接接続できることです。しかし、チームはそこで終わりませんでした。パスワードクラッキングアプリケーションを支援するために、Xilinx FPGAを2基追加しました。これは驚異的な高速化システムであり、競争でどのような結果を出すのか興味深いところです。

サンディエゴ:サンディエゴ州立大学にとって、これは初の学生向けクラスタコンテストです。Aztec Warriorsは、Intel Kennedy Passマザーボードベースのシステムを使用しています。このシステムは、4ノード構成で、計算ノードに348個のCPUコア(ヘッドノードに28個のコア)を搭載しています。システムは合計256GBのメモリとMellanox InfiniBand FDRインターコネクトを備えています。

MGHPCC:長年のライバルであるマサチューセッツ・グリーンHPCセンターは、ボストン地域の複数の大学からなる合同チームです。彼らは(私から)「チーム・ボストン」または「チーム・チャウダー」とも呼ばれています。

チームメンバーの中には、今年のASCに出場したメンバーもいますが、当初はInfiniBandに戸惑っていました。しかし今年は、チームはこの技術にかなり慣れてきたようで、3ノードのクラスタを駆動するためにInfiniBandを使用しています。今年のシステムは、AMD OpteronとIntel Xeonノードを組み合わせた「ユニティクラスタ」と呼ぶべきでしょう。さらに、NVIDIA P100 GPUを2基、AMD R9 Nanoアクセラレータを4基も組み合わせています。チームメンバーと同様に、このシステムも非常に多様な機器で構成されています。

TUM:ミュンヘン工科大学は、クラスターコンペティションにおいて新たな先例を打ち立てたもう一つのチームです。彼らは、ホストモードで使用されるインテル Knights Landing プロセッサーのみで構成されたクラスターを初めて構築しました。

彼らのクラスターは8つの1ソケットノードで構成され、各ノードには1.5GHzで動作する72コアのPhiプロセッサが1つずつ搭載されています。彼らはIntelを全面的に採用し、Omni Pathアーキテクチャをインターコネクトに採用しています。近日公開予定のチームビデオでご覧いただけるように、彼らは「Phiクラブ」も立ち上げ、ルールも定めています(最初の2つは「Phiクラブについて話さなければならない」です)。

EAFIT:コロンビアのUniversidad EAFITチームは、この大会で最も経験豊富なチームの一つとして急速に成長しています。私はここ数年、ASC、ISC、そしてSCの大会でこのチームを見てきました。

今年は、4基のNVIDIA K80と高速なMellanox EDRインターコネクトを搭載したOpenPOWER 8ベースのクラスタを運用しています。プロセッサとインターコネクトは確かに高速ですが、由緒あるK80を今年SCに持ち込むのは、まるでマシンガンファイトにナイフを持ち込むようなものです。コロンビアの勇敢な若者たちが、大物たちに太刀打ちできるほどの高速ハードウェアを持っているかどうかは分かりません。学生によるクラスタリングでは経験が非常に重要ですが、ハードウェアの不足は克服できません。

イリノイ:イリノイ大学シャンペーン校アーバナ校(チーム名ではアーバナ・シャンペーン校)のチームも初参加です。彼らは5つの計算ノードからなる標準的なクラスターを運用しており、各ノードにはデュアルXeon 20コアプロセッサ(合計200コア)、NVIDIA K80 GPU、256GBのRAMが搭載されています。十分な性能を持つクラスターですが、アクセラレータに関しては他のチームと比べるとやや劣っています。

USTC:中国科学技術大学は今年、まさに奮闘しています。3回目のクラスタコンペティションとなる今回は、LINPACKを制覇するか、PDUの電力モニターを破壊できるか、そのどちらかに全力を尽くすようです。6ノードのシステムは、216個のCPUコアと18基(なんと18基!)のNVIDIAアクセラレータを搭載しています。搭載されているのはP100プロセッサ10基とGTX 1080プロセッサ8基です。P100プロセッサはLINPACKと一般的なアプリケーション処理を、GTX 1080プロセッサはParaviewアプリケーションのレンダリング処理に特に役立つと期待されています。膨大なハードウェアリソースを投入したこの大学が、果たして栄光を掴めるのか、注目です。

テキサス:このチームは、常に強豪であるテキサス大学オースティン校とテキサス州立大学の学生で構成されている。クラスター大会のファンなら誰もが知っているように、オースティンのチームはサウスカロライナ州のクラスター大会で3連覇を達成した最初のチームであり、これは未だ誰も成し遂げていない偉業だ。しかし、経験豊富なコーチ陣はいるものの、メンバーは完全に一新されている。

彼らのクラスターは、テキサスチームにとって少々異例のものです。過去の大会では、アプリケーションがアクセラレータ中心でなかったため、アクセラレータの使用を敬遠してきました。しかし今年は、8ノード、224コアのシステムに加えて、6基のNVIDIA P100を使用しています。このアプローチは、ローンスター州(テキサス州)にかつての栄光を取り戻すきっかけとなるでしょうか?

ユタ州:今年の大会はユタ大学がホームチームです。大会はユタ大学のすぐ近くにあるソルトレイクシティで開催されるためです。Dellの支援を受けるこのチームは、わずか40個のCPUコアを搭載した小規模な2ノードクラスタを運用しています。さらに高い計算能力を実現するために、各ノードにはNVIDIA P100が2基搭載されています。

チームは2つのノードを接続するために、IntelのOmni Pathインターコネクトも使用しています。チームが提案書で指摘しているように、2つのノードのみを使用することでノード間通信を最小限に抑えることができます。これは確かにその通りですが、果たしてこれでタイトル獲得に十分な計算能力が得られるのでしょうか?

次回のアップデートでは、ビデオを通して各チームをご紹介し、LINPACKの結果について議論した後、さらにビデオコンテンツをご紹介し、全体的な結果を詳細に分析します。どうぞお楽しみに…®

Discover More