SC24 Oxide Computing 社の 2,500 ポンド (1.1 メートル トン) ラックスケール ブレード サーバーが、米国エネルギー省のローレンス リバモア国立研究所 (LNLL) に新たに設置される予定です。
月曜日にアトランタで開催された毎年恒例のスーパーコンピューティングイベント SC24 で発表されたこの計画的な展開は、研究所がオンプレミスの高性能コンピューティングに対してよりクラウド的なアプローチを採用しようとしている中で実施された。
コンピューティングスタックとして、Oxideのラックは少々変わっています。エンタープライズやハイパースケールデータセンターで一般的な19インチまたは21インチのキャビネットとは異なり、Oxideのラックは32台のコンピューティングノードを収容するシャーシのようなものです。ケーブルがほとんどないことに気付いたとしても、それは各ノードが統合バックプレーンによって相互接続されているためです。このバックプレーンは電力供給だけでなく、12.8Tbpsのスイッチング容量も提供します。
Oxide Computer ラック – クリックして拡大
フルラックには、約2048基のAMD Epycコア、32TBのRAM、十分なNVMeストレージが搭載され、定格消費電力は最大15キロワットです。しかし、ハイパースケールにインスパイアされたシステムの1つを取り出すと、基盤となるハードウェアの多くもカスタムメイドであることに気付くでしょう。例えば、ASpeed BMCは搭載されていません。代わりに、Oxideは独自に開発し、Rustベースのオペレーティングシステム「Hubris」を搭載しています。
Oxide のハードウェアに対するアプローチは斬新かもしれないが、LLNL を本拠地とする El Capitan などの HPC クラスターに取って代わることはないだろう。
「リバモア・コンピューティング・センターは、エンドユーザーに約40基のクラスターを提供しており、センター全体では約4,000人のユーザーがいます。しかし、これはコンピューティング・クラスターだけではありません。コンピューティング・クラスターを稼働させるために必要なハードウェアが他にもたくさんあります」と、LLNLの著名な技術スタッフであるトッド・ガンブリン氏は、 SC24に先立つThe Registerのインタビューで語った。
「多くのミッションニーズが生まれており、特にユーザー向けのサービスを中心に置く新しいタイプのサービスが必要になると考えています」とガンブリン氏は付け加えた。「チームごとにニーズが異なるため、オンプレミスのクラウドサービスに対する需要がますます高まっています。Oxide Racksは、将来的にユーザー向けのサービスとして提供できる可能性があります。」
この点で、Oxide のソフトウェアに対するアプローチは、研究室内のニーズの変化に対応しようとしている LLNL にとって、同様に、あるいはそれ以上に興味深いものです。
目標は、仮想化サービスの自動化、展開、管理において、よりAPI主導型のアプローチをチームに導入することです。ガンブリン氏によると、このアプローチにより、LNLLはラック内でユーザーをより柔軟にサイロ化および分離できるようになります。
「ラック内にサイロを提供できるという点は、非常に強力です。ユーザーはプロジェクト専用のAPIエンドポイントを取得でき、そのようにリソースを調整できます」と彼は述べた。「もちろん、Oxide RackにはGPUは搭載されていませんが、管理者とユーザーの両方に、このような純粋なIaaSインフラストラクチャの扱いに慣れてもらうためのプロトタイプのようなものだと考えています。」
現時点ではOxideのコンピューティング製品ラインには含まれていないものの、GPUは同社が検討している分野です。「ハードウェアアクセラレーションパッケージにおいて、単にGPUを再パッケージ化するのではなく、総合的な価値を提供できる適切な基盤を見つける必要があります」と、OxideのCEOであるスティーブ・タック氏は述べています。
しかし、Oxide のハードウェアがまだ HPE の Cray EX キャビネットを置き換えることはできないとしても、Gamblin はすでに、同じ種類の仮想化、抽象化、自動化を大規模な HPC クラスターに適用する方法を検討しています。
「現在、センターをプロビジョニングする方法を見ると、かなり厳格なネットワークゾーンが多数あることがわかります」と同氏は語った。
これは、セキュリティ維持のため、あるゾーンのクラスターは別のゾーンと通信できないためです。別のゾーンでアイドル状態のコンピューティングリソースを利用できるジョブを実行している場合、そのジョブは利用できません。
「もし完全仮想化システム(Oxideラックはインフラ側でこれをプロトタイプ化する手段です)があれば、両方のゾーンのワークロードを同じラックで実行でき、実質的にゾーン自体を柔軟にすることができます」とガンブリン氏は述べた。「これは、将来このセンターがどのように機能したいかを示すプロトタイプだと考えています。」
- HPEはNvidiaのBlackwell GPUにCrayを採用し、1つのキャビネットに224個を詰め込んだ
- AIチップのスタートアップTenstorrentが5000万ドルの政府契約で日本のエンジニアを育成
- 富士通とAMD、Monaka CPUとInstinct GPUの組み合わせに向けた準備を進める
- xAIはH100 ColossusトレーニングクラスタにInfiniBandではなくEthernetを採用した。
この戦略を支えているのは、Oxideのハードウェアは非標準的である一方で、ソフトウェアは非常にオープンであるという事実です。Oxideは、Illumos UnixとBhyveハイパーバイザーをベースとして、ハードウェアと深く統合された仮想化・管理スタックを開発しました。
「Oxide スタックがオープンソースであるという事実により、私たちはそれについてより深く考え、時間の経過とともに統合がどのように進むかについて考えることができる」と Gamblin 氏は言う。
Oxideのラックスケール・コンピューティング・プラットフォームはLLNLに限定されません。同研究所は、ロスアラモス国立研究所とサンディア国立研究所の研究者にもシステムを開放する予定です。
「他のラボでもユーザーがサービスを実行できるようにする手段として、Oxideラックをマルチラック構成に拡張できることを大変期待しています。これは災害復旧やマルチサイト運用にとって重要です」とガンブリン氏は述べた。®