SC23今年は、世界最速スーパーコンピュータの Top500 ランキングの 30 周年にあたります。
この事実を記念し、コロラドで毎年恒例のスーパーコンピューティングイベントが開催されている今、1993年のトップ10スーパーコンピュータの性能をどれだけ安価に実現できるか、少しばかばかしいかもしれないが、面白い試みだと考えました。そこで、クラウド上に仮想マシンをいくつか立ち上げ、HPLinpackベンチマークをコンパイルしました。ネタバレ注意:この実験に、あなたはそれほど驚かないかもしれません。
1993年末、記録上最速のスーパーコンピュータは、日本の国立研究開発法人航空宇宙研究所に設置された富士通の数値風洞でした。140基ものCPUコアを搭載したこのシステムは、124ギガフロップスの倍精度(FP64)演算性能を達成しました。
オーロラの夜明けが遅れる:中途半端なエントリーがスーパーコンピューター部門で2位を獲得
最新のトップ500
今日ではエクサFLOPSの壁を突破するシステムもありますが、1993年11月当時、世界最高性能のシステム10位に入るには、米国のCM-5/544のFP64性能15.1ギガFLOPSを上回る性能を達成するだけで十分でした。そのため、私たちのクラウド仮想マシンの目標は15ギガFLOPSでした。
結果を詳しく見ていく前に、いくつか注意点があります。GPU対応インスタンスを選択していれば、はるかに高いパフォーマンスを実現できたことは分かっていますが、クラウドでGPUをレンタルするのは決して安くはなく、GPUがTop500スーパーコンピュータに本格的に搭載されるようになったのは2000年代半ばから後半になってからです。また、LinpackをCPUで実行する方がGPUで実行するよりもはるかに簡単です。
これらのテストは、30 周年を記念して目新しさを目的として実行されたものであり、決して科学的または徹底的なものではありません。
5 ドルのクラウド VM と 30 年前の Top500 スーパーのどちらが優れているでしょうか?
しかし、テストを始める前に、いくつかのVPCを立ち上げる必要がありました。今回はVultrでLinpackを実行することにしましたが、AWS、Google Cloud、Azure、Digital Oceanなど、お好みのクラウドプロバイダーでも同様に実行できます。
まず、共有vCPU 1個、RAM 1GB、ストレージ25GBを備えた月額5ドルの仮想マシンインスタンスを立ち上げました。これで準備は完了です。次はLinpackをコンパイルする番です。
実際には、FLOPSを少し上げるためにかなりの調整と最適化を行う必要があるため、ここは少し複雑になります。しかし、このテストでは、できるだけシンプルにするために、こちらのガイドを使用することにしました。このドキュメントはUbuntu 18.04向けに書かれていますが、20.04 LTSでも問題なく動作することが確認されています。
HPL.dat ファイルを生成するために、Linpack 実行に最適化された構成を自動的に生成するこの便利なフォームを使用しました。
いくつかの異なるVMタイプでベンチマークを3回実行し、各実行から最高スコアを選択しました。結果は以下の通りです。
インスタンスタイプ | vCPU | RAM(MB) | ストレージ(GB) | Rmax GFLOPS | $/月 |
---|---|---|---|---|---|
定期的な共有 | 1 | 1024 | 25 | 31.21 | 5 |
プレミアム共有 | 1 | 1024 | 25 | 51.85 | 6 |
プレミアム共有 | 2 | 2048 | 60 | 87.46 | 18 |
プレミアム共有 | 4 | 8192 | 180 | 133.42 | 48 |
ご覧のとおり、完全に非科学的なテスト結果では、単一の共有 vCPU が、1993 年 11 月の最も強力なスーパー コンピュータ 10 台と比べて非常に優れていることが示されました。
単一のCPUスレッドで31.21ギガFLOPSのFP64性能を達成し、私たちのVMは1993年に第3位だったミネソタ・スーパーコンピューティング・センターの30.4ギガFLOPSのスーパーコンピュータ、CM-5/554 Thinking Machinesシステムの性能に匹敵する性能となりました。そのシステムは544基のSuperSPARCプロセッサを搭載していたのに対し、私たちのVMは単一のCPUスレッドで動作していたことを考えると、これは悪くない結果と言えるでしょう(もちろん、はるかに高いクロック速度で動作していたとはいえ)。
上のグラフからわかるように、月額 1 ドル追加するとパフォーマンスは 51.85 ギガ FLOPS に飛躍的に向上し、2 つのスレッドを持つ 18 ドルの「プレミアム」共有 CPU インスタンスにアップグレードすると、87.46 ギガ FLOPS に近づきます。
しかし、富士通のNumerical Wind Tunnelに勝つには、4vCPUのVMにアップグレードする必要があり、そこから133ギガフロップスのFP64性能を引き出すことができました。残念ながら、4スレッドへのアップグレードは月額48ドルと、そこまで安くはありませんでした。この価格では、Vultrが実際にフラクショナルGPUを販売しており、パフォーマンスは劇的に向上し、効率もかなり向上すると期待されます。
より良い選択肢がある
言及すべき点は、これらはすべて共有インスタンスであり、通常はある程度過剰にプロビジョニングされていることを意味します。
これにより、クラウド リージョン内のホスト システムの負荷の大きさに応じて実行ごとに異なる予測不可能なパフォーマンスが発生する可能性があります。
インテル、英国のAIスーパーコンピューター「Dawn」の詳細を明らかに
続きを読む
極めて非科学的な実行では、大きな変動は見られませんでした。これは、コアへの負荷がそれほど高くなかったためだと考えられます。同じテストを専用CPUインスタンスで実行したところ、月額6ドルのインスタンスとほぼ同じ結果が得られましたが、コストは5倍でした。
しかし、この小さな実験の目新しさ以外に、実際にはあまり意味がありません。もし短期間で大量のFLOPSを必要とすれば、この種の作業に最適化されたCPUおよびGPUインスタンスは数多く存在します。月額5ドルのインスタンスほど安くはありませんが、これらのほとんどは時間単位で課金されるため、実際のワークロードでは、実際のコストはどれだけ早く作業を完了できるかによって決まります。
あなたのスマートフォンがこれら 30 年前のシステムとどう違うのかなど気にしないでください。
いずれにせよ、The Registerはデンバーで開催されるSC23に出展し、ハイパフォーマンスコンピューティングとAIの世界に関する最新の知見をお届けします。さらに詳しい分析や解説については、カンファレンスの取材も行っているThe Next Platformの仲間たちもお見逃しなく。®