TensorBlow?データ専門家はGoogle CloudのGPU不足に苦戦、反対派はプログラマー支援を申し出る

Table of Contents

TensorBlow?データ専門家はGoogle CloudのGPU不足に苦戦、反対派はプログラマー支援を申し出る

更新今月もクラウドは不安定な状態が続き、今度は Google がリソース不足に陥りました。今回は GPU を搭載した仮想マシン インスタンスです。

ユーザーは過去 1 週間、Google Cloud Platform ゾーン全体でグラフィック チップ アクセラレータを搭載したマシンを起動するのに苦労しており、チョコレート ファクトリー独自の問題追跡システムや、マウンテン ビューのクラウド サービス専用の Google グループのスレッドに不満の声が上がっている。

他のクラウドベンダーと同様に、Googleは機械学習やデータ処理を高速化する幅広いGPUに加え、3Dレンダリングなどのグラフィックスワークロード向けのチップも提供しています。このインターネット界の巨人は昨年、その驚異的なチップで恥ずべき不具合に見舞われました。一部の研究者は、助成金を食いつぶすような請求書が届く前に、無料で高速化を実現する方法を見つけたと思ったほどです。

この問題は断続的に発生しているようで、一部のユーザーは成功しているようです。これはおそらく、他のユーザーがジョブを完了し、制限されたリソースを解放しているためだと思われます。GPUのクォータを上げてGPUを快適に利用できたユーザーもいましたが、あるユーザーは「これほど広範囲かつ長期間にわたるリソース不足は見たことがない」と述べています。

マーク・ザッカーバーグ

NvidiaのA100 GPUがあなたの近くのクラウドに登場、DARPAがAI戦争ゲームの詳細を発表、Intelがあなたの脳のスキャンを支援したい

続きを読む

別のユーザーからは、Nvidia Tesla K80を搭載したUS版VMを週末にディープラーニング用に起動したところ、「リクエストを処理するのに十分なリソースがありません」というエラーが出たという報告がありました。他のユーザーはデスクトップ版のGTX 1070に切り替えましたが、これはスケーラブルとは言い難い解決策でした。

クラウドがあるじゃないですか。ああ、ちょっと待って…

偶然かもしれませんが、今年の AI スーパーカンファレンスである NeurIPS の論文要旨提出の締め切りは 5 月 27 日です。そのため、世界中の科学者たちが、自分たちの提案のモデルを実行してテストするために、入手可能なすべての GPU を買い漁っているのかもしれません。

オラクルのカラン・バッタ氏は、クラウドのライバルとして期待される通り、非常に協力的で、この問題に関するTwitterのスレッドに対し、Big Redは「喜んでお手伝いします…GPUのキャパシティは十分にあります」と返答した。他のユーザーは、緊急のワークロードにはAWSへの移行を提案した。

ラリー・エリソンのチームは市場シェアでアマゾン、マイクロソフト、グーグルに後れを取っているため、未使用の容量があるというニュースは、まったく驚くべきことではない。

The RegisterはGoogleにこの件について意見を求めましたが、まだ回答はありません。確かに、プラットフォーム上の通常のコンピューティング処理には影響がなく、より特殊なNvidiaハードウェアを必要とするタスクのみに影響があるようです。®

追加更新

Google Cloudの広報担当者はThe Regに対し、「一部のお客様がGPUインフラにアクセスできない問題を認識しており、容量の取得能力を向上させるための変更を加えました」と述べた。「影響を受けたお客様は本日中に改善が見られるはずです。弊社チームは引き続き状況を監視していきます。」

Discover More