HPEのEng Lim Goh氏が宇宙搭載コンピューター、NASAのメダル、そして最後のフロンティアにおけるAIについて語る

Table of Contents

HPEのEng Lim Goh氏が宇宙搭載コンピューター、NASAのメダル、そして最後のフロンティアにおけるAIについて語る

インタビューHPE の Spaceborne Computer が国際宇宙ステーションへの旅からまだ日が浅いですが、副社長兼 HPC および AI 担当 CTO の Eng Lim Goh 博士は、再び宇宙を訪れ、同社のキットを火星ミッションに装備することを検討しています。

レジスター誌がゴー博士に会ったのは、2019年のSibosイベントで、十分な訓練を受けなければAIはキリンを見つけるのが子供よりも下手だと参加者を安心させた後だった。英国のボリス・ジョンソン首相が構想する「ピンクの目のターミネーター」の実現は、おそらくまだ先のことだろう。

しかし、もっと差し迫っているのは、NASAが市販のスーパーコンピュータを宇宙で使用することだ。ゴー氏は、スペースボーンの最初のミッションが成功した後にNASAから受け取ったメダルを披露した。

HPE NASA 卓越技術功績賞 2019

NASA卓越技術功績メダル

卓越した技術功績賞は、「リセットを必要とせずに1年間にわたり毎秒1兆回以上の計算を実行できる、ISSで初の商用スーパーコンピューティング プラットフォームの実証に成功した」ことに対して授与されました。

ゴー氏によると、このミッションの目的は、長期にわたる開発期間を要する特注品ではなく、既製のハードウェアが宇宙でも信頼できるものであることをNASAに示すことだった。

公平に言えば、ISS にはノート PC が数多く設置されている (そしてもちろん、古くなった Raspberry Pi ハードウェアもいくつかある)。しかし、スーパーコンピューターを軌道に乗せるには、ISS の考え方を変える必要があり、HPE にとってもいくつかの課題があった。

発売直前に最新の1Uサーバーを取り出し、ロッカーに接続しました。唯一の問題は、1Uサーバーはかなり奥行きがあり、(Destiny Labの)Expressラックはかなり浅いことでした…そこで、ラックを2つにまとめてスロットを2つ使用しました。

ハードウェアを可能な限り標準装備にしたいという要望から、キットにはAC電源が必要になりました。「しかし」とゴー氏は言います。「宇宙ステーションはソーラーパネルで直流電源を使っています。そこでNASAは、直流電源を交流電源に変換するインバーターを提供してくれたので、すぐに電源に接続できるようになりました。」

「2台のサーバーに搭載されている4つの電源装置のうち、1.6年間で1台が故障しました。しかし、いずれにしてもすべて冗長化されているため、業務やアプリケーションに支障が出ることはありませんでした。」

サーバーに携わった経験のある人なら、電源の弱点をよく理解しているはずです。ゴー氏はこう語りました。「まず第一に、今回の教訓から、三重冗長電源が必要になるかもしれません…」

もちろん、NASAは時折ラックへの電源を遮断する必要があり、これにより迅速な交換が可能になった。結果として、システムはISSでの1年半の稼働中に「ステーション内の様々な理由」により4回も再起動された。

アポロ宇宙搭載コンピュータは、通常使用される大規模で高価な物理的な強化ではなく、シュリンクラップされたRed Hat Linuxと、宇宙放射線などの環境要因に対するシステムの強化ソフトウェアを実行していましたが、それでもかなりのトラブルに見舞われました。「20台のSSDのうち9台が故障しました」とゴー氏は述べましたが、冗長性のおかげでシステムは正常に動作し続けました。そして、軌道上での長期にわたる稼働は、そこから多くの教訓を得られることを意味しています。

SpaceXの着水後、工場に戻った今、「過酷な着陸の後でも正常に起動しました」。ではSSDはどうでしょうか?「宇宙での4回の再起動中にSSDの一部が復活したため、コントローラーの問題である可能性が高まっていると考えています。」

BOFH の古いスタンバイ方式である電源をオフにして再びオンにする方法が、軌道上でも同様に機能することを知っておいてよかったです。

もちろん、目標は、既に多忙な宇宙飛行士が装置に近寄って問題を解決するのを阻止することでした。「私たちは3つのソフトウェアサークルを開発しました。最も外側のサークルは第2層を監視し、第2層はコアを監視し、修正可能なエラーも検知できるようにしました。将来的には、嵐が近づいているというステーションからの入力を感知し、適切に対応できるようになる予定です。」

ISSで1年半稼働したバージョンは「訂正可能なエラーを検知する能力」を備えていた。ゴー氏は、システムはこれらの問題に対処していたものの、「訂正可能なエラーが加速し、閾値に達して訂正不能になる」危険性があったと説明した。

「それは」と彼は控えめに言った。「アプリケーションにとっては問題になるだろう」。まさに宇宙での最悪の日だった。

「修正可能なエラーが一定の閾値に達した後は、保守的な対応をし、次回の修正後にそのページを廃止することにしました。ビット全体を廃止することはできませんが、そのビット周辺のページを廃止することは可能です。これらは、システムの動作を維持するための緩和策の一部です。」

実際にこのコンピューターが何をしたのかについて、ゴー氏によると、チームはHPCG、Linpack、そしてNASA独自のベンチマークソフトウェアを使って徹底的にテストしたという。かわいそうなこのコンピューターは、CPU、メモリ、ストレージ(再起動以外)で酷使された。そしてパフォーマンスの低下は?ゴー氏によると「最小限」だったという。

軌道に戻り、月とその先へ

ゴー氏は今後数年以内に、HPEが当時販売していた別のコンピューターをISSに送り込む計画だが、今回はベンチマークソフトウェアを実行するだけではない。「限界が分かったので、宇宙で一般的なアプリケーションを実行できるはずです」

当然のことながら、データを地上に送り返して地上のハードウェアで処理するよりも、ソースで処理する方がはるかに効率的であるため、「NASA​​ はアプリケーションの実行に強い関心を持っています。」

そしてもちろん、HPEはNASAの今後の月面ミッションにも自社のコンピューターを搭載したいと考えています。「火星への最後の2番目のステップだからです」とゴー氏は説明します。「月面は依然として(放射線から)ある程度保護された軌道上にあります。」つまり、既存のスーパーコンピューターハードウェアが深宇宙でどのように機能するかを確認することは、より野心的なアプリケーションへの前兆となるのです。

ゴー氏は、スーパーコンピューティングのハードウェアが宇宙望遠鏡や探査機に利用され、乗組員の作業負荷を軽減できるのではないかと大きな期待を寄せています。宇宙船はますます高感度化していますが、データを地球に送り返して処理するには、帯域幅と遅延という制約が常につきまといます。「センサーから送られてくるデータ量に対応するのは、ますます困難になっています」とゴー氏は言います。

NASAは常に再プログラム可能な計算能力を宇宙探査機に投入してきた(ボイジャー探査機で稼働しているソフトウェアは、40年以上前に打ち上げられたものとは大きく異なる)。しかしゴー氏は、スーパーコンピューティング・ハードウェアの進化によって、機械学習などのツールが実際の宇宙船にも活用されるようになると考えている。探査機は「地球にすべてのデータを送り返す必要がなく、ローカルで学習できる」ようになると彼は述べた。地球にデータを送り返すのはそもそも現実的ではないからだ。

まさに究極のエッジアプリケーションです。®

Discover More