良すぎる話は、おそらく本当ではない。Google Cloud Platformのオンラインユーザーインターフェースにバグがあるようで、エンジニアはGPUアクセラレーション対応の仮想マシンを無料でレンタルしていると思い込んでしまう可能性がある。しかし、実際にはそうではない。
この不具合に騙された人は、次にクラウドの請求書を見た時に、Compute Engineのリソースが無料ではなく、実際には月に数百ドルもかかる可能性があることに気づくでしょう。破産するような事態にはなりませんが、つまずく可能性はありますので、これは注意点として捉えてください。将来、あるいは他のクラウドプラットフォームで、同様の不具合に遭遇する可能性もあります。起こり得ることです。
このバグについて、フランスのソフトウェアスタートアップBee4winのAIエンジニア、ソウフィアン・サリム氏から聞きました。彼は、NVIDIAの最新GPUであるTesla T4を使ってニューラルネットワークモデルを学習させようとしていました。彼はGoogle Cloud Marketplaceから仮想マシンインスタンス(具体的にはAI Platform Deep Learning VM Image)を起動し、多数のT4を使って計算を高速化するように設定していました。
以下は彼がThe Registerにシェアした設定のスクリーンショットです。
仮想マシンの設定... 画像クレジット: Soufian Salim
スクリーンショットをクリックすると拡大します
インスタンスは2基のCPU、13GBのRAM、4基のTesla T4 GPUを使用するように構成されており、月額64.50ドルというリーズナブルな価格になっています。右側に表示されている推定料金には、GoogleがホストするCPU、メモリ、そしてクラウドを頻繁に利用する顧客向けの割引が含まれていますが、T4 GPUについては何も記載されていません。T4 GPUは通常、構成に応じて1GPUあたり1時間あたり0.29ドルから0.95ドルで、割引は適用されないため、ページに記載されているはずです。しかし、何も表示されていないので、無料のはず、というわけですね?
「通常、T4は月額数百ドルかかります」と、サリム氏は今週初めにThe Register紙に語った。「おそらくユーザーインターフェースのバグだと思います。ドキュメントによると、無料ではないはずです。しかし、100%確信はありません。Google Cloudチームにバグレポートを送りました。」
同じ設定で独自のディープラーニングインスタンスを起動しようとしたところ、同じ問題が発生しました。NvidiaのV100など、別のGPUモデルを使用しようとしたところ、クラウドベースのハードウェアの見積り請求額に料金が表示されましたが、T4に戻すと表示されなくなりました(下のスクリーンショットをご覧ください)。これは、T4は無料でレンタルできるのに対し、V100は有料であることを示しています。
V100 のコストは右側に概算されています...
...しかしT4を使ったときはゼロだった
GoogleはColaboratoryプラットフォーム上で無料のT4を提供しています。開発者はGoogleのクラウドリソースを使用して、Jupyterノートブックで特定のAIモデルを無料で実行できます。ただし、Salim氏によると、彼のモデルはColabサービスを使用しておらず、私たちのモデルも同様でした。また、BlazingSQL Colaboratory環境など、AI関連以外のプロモーションを通じてT4を無料で利用できることも認識しています。ただし、これらは本番環境ではなくテスト目的であるため、GPUが無料で提供されています。
サリム氏はThe Register紙に対し、GoogleのBERT言語モデルに基づくニューラルネットワークの学習を進めており、火曜日の朝に仮想サーバーをデプロイしたと語った。サーバーは1日半以上稼働させていたが、正常に動作しているように見えたという。
信じられないほど良いバグ
サリム氏は、これは単なるユーザーインターフェースのバグで、最終的にはバックエンドシステムからT4 GPUの料金が請求されるだろうと推測していましたが、Bee4winの見積もり費用には記載されていなかったにもかかわらず、レンタルしたグラフィックプロセッサの料金が実際に請求されていたことが判明し、その推測は裏付けられました。「予想通り、GPUの料金が1時間あたり約0.9ドルで請求されました。UIのエラーでした」と、サリム氏は木曜日にThe Register紙に語りました。
仮想マシンを立ち上げた翌日、Google Cloudの請求ページを確認したところ、なんとEl RegにもT4の料金が請求されることがわかりました。本番環境のクラウドインスタンスでNvidia Tesla GPUを無料で利用できる方法を見つけたと世界に大喜びで発表するどころか、時間単位のコストが私たちに追いついてきたのです。今夜は経費でマティーニを飲み干すどころか、水道水を飲むしかないでしょう。だって、お金はGoogle Cloudに消えてしまったのですから。
したがって、同じバグに遭遇した場合は、空いているように見えるという理由だけで、T4 GPU をさらに増やそうとしないでください。実際にはそうではありません。
この問題は未だ修正されていないため、ご注意ください。Googleの広報担当者は金曜日に次のように述べています。「一部のお客様において、仮想マシン作成前のマーケットプレイスのウェブインターフェースでT4 GPUの概算料金が表示されない状況が発生していることを認識しており、現在、料金見積もりツールの修正に取り組んでいます。」®