Google の Cloud Tensor Processing Unit (TPU) チップが、ベータ グレードのサービスとして同社のクラウド プラットフォームでレンタルできるようになりました。
Cloud TPU(旧称TPU2)は、Googleが自社開発した数学アクセラレータの第2世代であり、TensorFlowを基盤とするAIおよび機械学習ワークロード向けに設計されています。第1世代はニューラルネットワークの学習にのみ適用可能でしたが、Cloud TPUは学習と推論の両方に対応しています。
Cloud TPU のプロダクト マネージャーである John Barrus 氏と、TensorFlow および Cloud TPU のプロダクト マネージャーである Zak Stone 氏は、本日、チップは「現在数量限定で提供されており、使用量は 1 秒ごとに Cloud TPU あたり 6.50 ドル / 時間の料金で課金される」と述べました。
1時間あたり6ドルは高額に思えるかもしれないが、AmazonのAWSでは、機械学習タスク用の最高級のGPU搭載仮想インスタンスに対して、1時間あたり最大約24ドルも請求していることを考慮してほしい。
AIモデルに新しい技術を学習させるには、その複雑さにもよりますが、通常数時間から数日かかります。Googleは、Microsoftが開発した古くからある人気の畳み込みニューラルネットワークであるResNet-50を、ImageNetチャレンジで設定されたベンチマークに匹敵する精度まで学習させるのに必要なのは、1つのCloud TPUを1日未満で稼働させ、200ドル未満のコストで済むと主張しています。
重要なのは、TPU2 は TensorFlow で実行されるコード用に最適化されているため、ResNet の例では、このチュートリアルに必ず従う必要があることです。
昨年、Google社内のディープラーニング研究チーム「Google Brain」プロジェクトを率いるシニアフェロー、ジェフ・ディーン氏は、各Cloud TPUが4つのASICで構成されていることを明らかにしました。各チップには以下の機能が搭載されています。
- 2 つのプロセッシング コアはそれぞれ 128x128 の混合乗算ユニット (MXU) と 8GB の高帯域幅メモリを備えており、1 つの 4 チップ デバイスで最大 64GB の HBM と 600GBps のメモリ帯域幅を実現します。
- スカラーとベクトル用の 32 ビット浮動小数点精度の演算ユニットと、乗算器用の精度を下げた 32 ビット浮動小数点精度の行列乗算ユニット。
- 最大パフォーマンスは約 45 TFLOPS で、4 チップデバイス 1 つで合計 180 TFLOPS になります。
4つのプロセッサチップを搭載した単一のTPU2デバイス…赤い枠で囲まれた部分は1つのチップを示しています。画像提供:Google
Googleは今年後半にCloud TPUのポッドのレンタルも計画している。ポッドには64台のデバイスが詰め込まれ、4TBの高帯域幅メモリを使用して11.3PFLOPSの演算能力を持つ「機械学習スーパーコンピュータ」を構築する。
Cloud TPUベータサービスへのご登録はこちらから。姉妹サイトThe Next Platformでは、さらに詳しい分析記事をご覧いただけます。®