AI 開発者は、米国、アジア、ヨーロッパで Google の Cloud TPU チップを時間単位でレンタルできるようになりました。
Cloud TPU(TPU2とも呼ばれる)は、TensorFlowで記述された機械学習モデルの最適化を目的としたGoogleのTPUハードウェアの第2世代です。初代TPUは社内実験的なものであり、推論のみを処理できました。2代目のTPUはトレーニングと推論の両方に対応しており、クラウドユーザーが利用できる最初のチップです。
今週から、米国、アジア、ヨーロッパの開発者は、これらのスペースを時間単位でレンタルできるようになります。Googleのプリエンプティブサービスに加入すれば、価格は70%も安くなる可能性があります。ただし、需要が急増した場合、ユーザーはサービスから外されるリスクを負うことになります。
Cloud TPU2 の通常サービスとプリエンプティブ サービスの 3 つの異なるリージョンでの価格設定 ... クリックして拡大
これは、Amazon Web ServiceのGPUリザーブドインスタンス(RI)やオンデマンド(OD)スポット料金サービスと同様の仕組みです。P3インスタンスは、NVIDIAの最新のTesla V100チップを使用しています。
AWS を利用するメリットは、米国東部(バージニア北部)、米国西部(オレゴン)、米国東部(オハイオ)、欧州西部(アイルランド)、アジアパシフィック(東京)、アジアパシフィック(北京)、アジアパシフィック(ソウル)、GovCloud(米国)など、より多くのリージョンで利用できることです。また、柔軟性も高く、TensorFlow 以外のフレームワークで記述されたシステムにも対応しています。
また、Microsoft Azure がクラウド上で GPU 演算アクセラレータを提供していることもお忘れなく。また、クラウド大手は GPU リソースが不足する可能性があることも忘れてはなりません。
企業は明確なベンチマークを開示したがらないため、チップの比較は難しい場合があります。DAWNBenchのようなプロジェクトは、開発者にトレーニング時間、トレーニングと推論の実行にかかるコスト、そして推論のレイテンシを最適化するモデルを提出するよう促すコンペティションであり、興味深く有用です。
Googleのエンジニアは、ResNet-50モデルを用いたImageNetトレーニングの低コスト・高速化に関するコンテストにエントリーし、いくつかの賞を獲得しました。このAmoebaNetモデルは、画像分類のリーダーボードにも掲載されました。
Google のオープンソース モデルの一部をトレーニングするには、次の費用がかかります。
通常のサービスとプリエンプティブ サービスを使用して、Cloud TPU でいくつかの一般的なオープンソース モデルをトレーニングするためのコスト。
他のクラウドサービスと比較すると興味深いですが、同じモデルが異なるフレームワーク間で最適化できるため、少し複雑です。RiseMLのようなスタートアップ企業がこれに取り組んでおり、Tesla V100とCloud TPUの速度差は非常に小さいことが判明しました。
人気の機械学習モデルのトレーニングと推論の速度を、様々なチップやフレームワークで測定するMLPerfプロジェクトにも期待が寄せられています。Google、Intel、Baidu、AMD、SambaNovaやWave Computingといったハードウェアスタートアップ、そして大学のエンジニアたちが、7月31日の締め切りまでに、このコンテストにモデルを提出しています。®