HPE と Cerebras Systems は、科学およびエンジニアリング コミュニティでの使用を目的として、HPE Superdome Flex と Cerebras の AI アクセラレータ テクノロジーを組み合わせた新しい AI スーパーコンピュータをドイツのミュンヘンに構築しました。
ミュンヘンのライプニッツ・スーパーコンピューティング・センター(LRZ)向けに開発されたこの新しいシステムは、より大規模なディープラーニング・ニューラルネットワーク・モデルや、画像や音声など複数のデータタイプが関わるマルチモーダル問題の出現など、研究者の現在および将来予想されるコンピューティングニーズを満たすために導入されていると、LRZの戦略開発およびパートナーシップ責任者であるローラ・シュルツ氏は述べている。
「ますます多くの処理を必要とする大量のデータと、トレーニングに数ヶ月かかるモデルが増加しており、これをスピードアップできるようにしたい」とシュルツ氏は語った。
「さらに、自然言語処理(NLP)と医療画像や文書の統合といったマルチモーダルな問題も発生しており、ユーザー側、施設側から、こうした複雑さ、高速化、大規模化のニーズが生じています。そのため、これらすべてを理解できるように、さまざまな新しいアーキテクチャやさまざまな使用モデルを常に評価していく必要があります。」
クリックして拡大
LRZチームは、大規模な共有メモリと拡張性を備えたCerebrasテクノロジーが、彼らが解決しようとしていた「問題点」に最適であると判断したと彼女は述べた。
「そして、CerebrasとHPEのSuperdome Flexを組み合わせると、理にかなっているように思えました。Superdome Flexは、非常に効率的なデータ前後処理とリソース管理機能を備えており、Cerebrasシステムにデータを提供し続け、常に良好な状態を保ち、データで満ち溢れた状態を維持します。」
Cerebrasテクノロジーは、シリコンウエハ全体をCPUとして用いるというコンセプトに基づいており、個々のチップに分割してCPUを構成するのではなく、その全体をCPUとして用いる。その結果、7nmプロセスで製造されたウエハスケールエンジンは、スパース線形代数演算に最適化された85万個のコアと40GBのオンチップメモリを搭載している。
「これらのコアはそれぞれ同一で完全にプログラム可能であり、大規模AIとHPCワークロードの両方に共通するスパース線形代数や計算操作のパフォーマンスを最適化するようにゼロから構築されています」とCerebrasの製品管理担当副社長アンディ・ホック氏は説明した。
これらのコアはそれぞれ、デバイス全体にわたって隣接する4つのコアと、高帯域幅・低レイテンシの相互接続メッシュ内で直接接続されており、コア間のデータフロートラフィックパターンはコンパイル時に完全にプログラム可能です。つまり、膨大な計算リソースを活用するだけでなく、非常に高帯域幅のメモリとプロセッサ間の高帯域幅通信も実現しているのです。
このアーキテクチャは、大規模なAI問題に取り組むための典型的なアプローチ、すなわち大規模なサーバークラスターの構築とは対照的です。しかし、Cerebrasによると、問題とモデルが大きくなるにつれて、このアプローチは収穫逓減の傾向を示します。
「解決までの時間は直線的に伸びるわけではない。例えば数百のプロセッサを使っても、結果が出るのが数十倍しか速くならないこともある」とホック氏は述べた。
クリックして拡大
対照的に、密接にリンクされた多数のプロセッサを備えたウェーハスケールエンジンは、数億、あるいは数十億のパラメータを持つモデルに線形パフォーマンスのスケールアウトを可能にするとホック氏は主張した。
CS-2 システムには、15U ラックマウント シャーシ内にこれらのウェーハ スケール エンジンが 1 つ搭載されており、さらに冗長電源、内部液体冷却システム、外部とリンクするための 100GbE ネットワーク ポートが 12 個あります。
新しい LRZ 展開では、1 台の CS-2 が、完全な非ブロッキング トポロジを使用して SN3700M スイッチ経由で HPE Superdome Flex にすべてのネットワーク ポートを使用してリンクされます。
Superdome Flex には、LRZ のバックボーン ネットワークにリンクするための 8 つの InfiniBand HDR100 アダプタが装備されており、HPE によれば、「ファイル システムからの適切な注入帯域幅を確保して、CS-2 の予想される非常に高いパフォーマンスを維持し、スムーズにデータを送ります」。
- 米国は中国が2025年までに10エクサスケールのシステムを保有する可能性があると懸念している
- テスト準備完了: インテルのワイルドカード AI チップを搭載した初のスーパーコンピュータ
- HPE、世界で4番目の「スーパーコンピュータ工場」を建設
- AMDは、2025年までに約束した野心的なエネルギー効率目標を忘れていない。
Superdome Flex 自体には、12 TB のシステム メモリと 100 TB の NVMe ローカル ストレージを備えた 16 個の Intel Xeon プロセッサが搭載されています。
しかし、システム全体の重要な部分はソフトウェア スタックであり、Cerebras は、これにより LRZ の科学者や研究者は標準的な AI ソフトウェア ツールを使用して CS-2 で実行されるコードを構築できると主張しています。
「セレブラスの研究者や科学者である私たちは、高性能コンピューティングプラットフォームは、使いやすくなければ意味がないと認識しています。そして、ユーザーが現在使用している標準フレームワークを使ってこのマシンをプログラムできるようにして初めて、より幅広いユーザー層にリーチできるのです」とホック氏は語った。
これは、機械学習研究者やデータ サイエンティストなどのユーザーが TensorFlow や PyTorch などの標準フレームワークで開発し、そのコードを 1 つ以上の CS-2 デバイスで実行できる実行可能ファイルに変換するコンパイラによって実現されます。
「当社には、低レベルのソフトウェア開発キットもあり、HPC ユーザーの多くがこれを使用してカスタム カーネルを当社のコンパイラーに追加し、AI アプリケーションだけでなく、信号処理から物理ベースのモデリングやシミュレーションに至るまでの幅広いプロジェクト向けの HPC アプリケーションを実現しています」とホック氏は述べた。
LZR 取締役会長ディーター・クランツルミュラー博士は、新しいシステムは一部のアプリケーションで従来の HPC と AI 処理の側面を組み合わせるために使用されるだろうと述べました。
「我々はここで統合スーパーコンピュータアーキテクチャを採用しています。これは将来のHPCシステムが異機種混在型であり、先進技術から得られる支援をすべて活用することを意味します」と氏は述べた。
「つまり、実際のアイデアは、HPC アプリケーションは存在するものの、特定のアプリケーション向けの専用ソリューション、または複雑性の一部を AI モデルに置き換えることで解決までの時間を改善する一種のモデルにアクセスすることで、HPC アプリケーションが追加のメリットを得るというものです。その後、これらを専用チップ、専用ハードウェアで実行します。」
この新しい導入は、CerebrasシステムとHPE Superdomeサーバーを組み合わせた最初の導入ではありません。姉妹サイトThe Next Platformで詳しく解説されているように、カーネギーメロン大学ピッツバーグ・スーパーコンピューティングセンターのNeocortexスーパーコンピューターには、実際には2つのCerebrasシステムが搭載されており、Superdomeを介してBridges-2スーパーコンピューターに接続されています。®