Cray、巨大マシン「Cascade」XC30で100ペタフロップス超を実現

Table of Contents

Cray、巨大マシン「Cascade」XC30で100ペタフロップス超を実現

先週、オークリッジ国立研究所に 20 ペタフロップスを超える「Titan」CPU-GPU ハイブリッド スーパーコンピュータを納入したのに続き、Cray 社は、間違いなくはるかに優れたマシンである、米国防高等研究計画局と共同で開発され、新しい「Aries」インターコネクトを搭載した待望の「Cascade」システムをリリースしました。

Aries インターコネクトはハイパースケールおよび並列コンピューティングにとって非常に重要であるため、Intel は 4 月に 1 億 4000 万ドルを投じて、Aries および前身の「Gemini」インターコネクト、チップ設計自体、およびそれらに関連する 34 件の特許を作成した人々を獲得しました。

CrayはGeminiとAriesの独占使用権を保持しているため、NeweggでAriesチップを購入して独自のXC30スーパーコンピュータを構築することはできません(残念です)。さらに将来的には、CrayとIntelが「Shasta」と呼ばれる共通スーパーコンピュータ設計に取り組んでいます。この設計では、Crayが2年前に構想していた第5世代「Pisces」インターコネクトに類似したインターコネクトが採用されるかどうかは不明です。

我々が確実に知っていることは、Shasta 相互接続が何であれ、その費用の大半を Intel が負担することであり、どうやらそれは Cray にとって都合が良いようだ。

Cascadeがローンチされた今、Crayはこのプロジェクトについてこれまで公表されていなかったいくつかの点について語ってくれた。現在Crayのストレージおよびデータ管理担当副社長を務めるバリー・ボールディング氏は、20年前にCray Researchに勤務し、その後IBMに移籍した。ボールディング氏がCrayに復帰したのは、かつてIBMでHPC事業を率いていたピーター・ウンガロ氏から、Crayに戻り、特にCascadeを担当するよう依頼されたためだ。

「このプロジェクトはしばらくの間、私の宝物でした。私たちにとって非常に厳しい時期でした」とボールディングはエル・レグ誌に語った。しかし、『ロード・オブ・ザ・リング』の監督の言葉にあるように、「終わりよければ全てよし」なのだ。

まず、これは少し意外なことですが、DARPAはCascade開発に費やした資金の全額を払いのけて、実際に独自のCascadeマシンを入手するわけではありません。実際には、他の場所に設置されたマシンを数ヶ月間利用できるのです。そして、DARPAがそのマシンが合格だと判断した場合、米軍の各部門はマシンを購入するかどうかを独自に決定できます。

クレイは、政府資金による以前のシステムと同様に、DARPAの投資をすべて収益化できる。薄利多売でリスクの高いスーパーコンピュータビジネスで冷静さを保つことができる鉄の神経を持っているなら、これは素晴らしい仕事だ。

2003 年の DARPA の高生産性コンピューティング システム プログラムの第 1 フェーズでは、Cray は当初 4,310 万ドルを受け取り、Cascade シリーズのマシンの開発に着手しました。このマシンは、x86、ベクター、FPGA、および MTA マルチスレッド プロセッサに基づくさまざまなマシンを単一のプラットフォームに統合することを目指していました (GPU アクセラレータはまだ登場していませんでした)。

HPCS プロジェクトのフェーズ 2 では、Cray は 2006 年に 2 億 5,000 万ドルの助成金を受け、Cascade の開発をさらに進め、現在オープン ソースで利用可能な Chapel 並列プログラミング言語も作成しました。

IBM は PERCS システムの開発に 2 億 4,400 万ドルを獲得した。このシステムは、IBM が昨年イリノイ大学で開発を中止した不運な Power7 ベースの 20 ペタフロッピー プロセッサ「Blue Waters」に似ているが、同じではない。そのため、Cray は XK7 Opteron-Tesla ハイブリッド マシンで 1 億 8,800 万ドルの契約を獲得するチャンスが開けた。

いずれにせよ、2010 年 1 月に DARPA は Cray Cascade への資金提供を 6,000 万ドル削減しましたが、DARPA も Cray もその理由を説明しませんでした。

以前はCascadeとして知られていたXC30スーパーコンピュータ

以前はCascadeとして知られていたXC30スーパーコンピュータ

ついに判明した。ボルディング氏によると、クレイはマルチストリーミング・ベクタープロセッサと大規模マルチスレッドThreadStormプロセッサの開発成果を基に、Ariesインターコネクトに対応した独自の新プロセッサを開発する予定だったという。

「最終的に、インターコネクトに注力するという難しい決断を下しました」とボールディング氏は語る。そして、その決断は明らかに功を奏し、結果として、Crayはシステム内のx86プロセッサに加え、GPUやNVIDIAのTesla、IntelのXeon Phiといったx86コプロセッサを補助的かつより効率的なコンピューティングエンジンとして採用しやすくなった。

Ariesインターコネクトチップのダイショット

Ariesインターコネクトチップのダイショット

Cray が、同様の名前を持つ XT および XE シリーズの並列スーパーで使用されている「SeaStar」XT および Gemini XE インターコネクトを使用して、Advanced Micro Devices の Opteron プロセッサに全面的に依存した後では特に、Cray が独自のプロセッサを作成するというアイデアを撤回したとしても、Cray や DARPA、またはその両方を責めることはできません。

プロセッサの設計と製造に伴う数々の苦難、そしてOpteronの遅延がCrayの売上と利益を幾度となく揺るがしたことを思い起こしてください。インターコネクトチップの心配だけでも大変なのに、Intelの賢明な動きの後、今度はそれがChipzillaの問題なのです。

しかし、Cray は相互接続やプロセッサを扱っていないため、2016 年頃に予定されている Shasta 世代のマシンでの付加価値がどうなるのかは疑問です。

これらのXTおよびXEインターコネクトは、OpteronプロセッサのHyperTransportポートに直接接続されていました。Aries XCインターコネクト(Extreme Computingの略称と思われる)では、CrayはXeon E5-2600プロセッサのオンチップPCI-Express 3.0コントローラに直接接続します。このコントローラは十分な帯域幅を備えており、CrayはAriesをCPU、GPU、その他のコンピューティングデバイスやストレージデバイスなど、PCI-Express 3.0ポートを備えたあらゆるデバイスと直接通信させるオプションを得ています。

以前聞いた説明によると、Gemini は当初ロードマップには入っていなかったが、米国政府は SeaStar と Aries の中間のスケーラビリティを備えながら、以前の XT マシンで使用されていた 3D トーラス相互接続を維持した暫定的なデバイスとして、SeaStar と Aries の中間のデバイスを望んでいたという。

したがって、Gemini は、XC マシンで使用される Aries インターコネクトの新しい「Dragonfly」トポロジの代わりに、XT マシンでおなじみの 3D トーラス インターコネクトを実装した、機能の少ない高基数ルーターです。

AriesインターコネクトとCascadeノードの概略図

AriesインターコネクトとCascadeノードの概略図

まず Aries 相互接続自体と Gemini との比較を確認し、次に Dragonfly トポロジについて説明します。

El Reg が2010 年 5 月の発売時に詳細を説明したように、Gemini インターコネクトには Yarc-2 (Yet Another Router Chip の略で、Cray を逆に綴ったもの) と呼ばれる 48 ポートの高基数ルーターが搭載されていました。このルーターは、2 組の Opteron プロセッサーへの 4 つの HyperTransport リンクを通じてプロセッサーへのリンクを仮想化するために使用されました。

Gemini ルータは、総計 168GB/秒の帯域幅を持ち、チップの片側にある HyperTransport に接続された 2 ソケット Opteron ノードごとに 2 つの仮想ネットワーク インターフェイスを作成し、ルータの反対側にある 6 つのポートを通じて、XE6 オール Opteron および現在は XK7 Opteron-Tesla ハイブリッド システム内の他のノードにトラフィックをルーティングします。

上の回路図からわかるように、Ariesチップも48ポートのルーターですが、実装方法が異なります。Ariesには4つのPCI-Express 3.0パイプがあり、各2ソケットXeon E5ノードをチップに接続します。

ルーターのポートは、3種類の異なる接続を提供するためにバンドルされています。ノードをXC30システムシャーシのバックプレーンに接続してローカルホップを行う接続、6つのエンクロージャー(ラック2つ分)のマシンを標準の銅線で相互に接続する銅線に接続、そして複数のラックを単一のXC30システムに接続する光ケーブルに接続します。Crayは、バックプレーンネットワークをランク1、ラックリンクネットワークをランク2、ラック間光リンクをランク3と呼んでいます。

Discover More