TPU 3.0のご紹介: GoogleがAI向け最新演算コプロセッサを世界に披露

Table of Contents

TPU 3.0のご紹介: GoogleがAI向け最新演算コプロセッサを世界に披露

Google IO Google のカスタム設計による数値計算チップの最新版である Tensor Processing Unit (TPU) バージョン 3 により、機械学習システムのトレーニングに必要な時間が大幅に短縮されると Chocolate Factory は主張している。

Google CEOのサンダー・ピチャイ氏は、Google IO開発者カンファレンスの基調講演で、Googleが開発した行列演算プロセッサの第3バージョンを公開し、TPU 3.0のポッドは前世代のポッドと比べて8倍高速であると述べました。別のセッションでは、TensorFlowおよびCloud TPU担当プロダクトマネージャーのザック・ストーン氏が、その詳細についてより深く掘り下げて説明しました。

初代TPUについてはこちら、TPU 2.0についてはこちらをお読みください。TPU 1.0は、比較的原始的なものであり、分岐命令をサポートしておらず、実際には8つ程度のソフトウェア命令しかサポートしていませんでした。ホストCPUに接続して、モデルのトレーニングに使用する便利な数学アクセラレータというよりは、むしろそれ以外の用途にしか使えませんでした。TPU 2.0はより複雑になり、スタンドアロンチップとしてより高度な処理が可能になり、Google Cloudを通じて開発者に提供されました。TPU 3.0は、おそらくそれをさらに進化させているでしょう。

基本的に、このウェブの巨人は最新のニューラルネットワークに対応するために、より多くの専用コンピューティング能力を必要としていました。そのため、同社はカスタム演算ユニットシリコンを継続的にアップデートしています。

「当初、画像認識や音声認識といった分野における機械学習システムは、それぞれ独自のコーディング技術を用いていました」とストーン氏は語りました。「しかし、ニューラルネットワークが様々なタスクに統合されるようになりました。しかし、それにはコストが伴います。ニューラルネットワークは規模が大きくなり、実行にはより多くの計算量が必要になる傾向があるため、機械学習専用のハードウェアが必要なのです。」

最初のTPUは2015年に実用化され、新しいチップセットは以前の設計に比べてパフォーマンスが劇的に向上したとストーン氏は主張した。ベーコンを焼けるほどのシリコンに対応するため、ハードウェアは液体冷却が必要になるほどだ。

tpu

暑い暑い暑い…液冷TPU3

新しいTPU 3.0デバイスの内部構造は、以前の世代よりも高速であるという点以外、具体的には明らかにされていません。Googleは通常、次の世代のTPUが本格的に導入されるまで、その世代について何も明かしません。おそらくTPU 3.0はTPU 2.0に続いてクラウドに導入され、Googleのサービス向け内部コードだけでなく、顧客のワークロードにも使用されるでしょう。

これらのTPUはポッドにまとめられ、すべてネットワークに接続されているため、クラウドでの使用に最適です。ポッドには通常64台のデバイスがあり、デバイスごとに4つのASICチップ、チップごとに2つのコアが搭載されています。当然のことながら、これらのTPUはGoogleのTensorFlowベースのソフトウェア向けに最適化されています。TensorFlowは人気の機械学習ツールセットであり、GitHubで最も活発なグループの一つです。

TPU 3.0のポッドは100ペタFLOPS以上の演算能力があると主張されています。TPU 2.0のポッドは最高で約11.5ペタFLOPSでした。11.5を8倍すると92となり、約100になります。しかし、Googleはこれらのベンチマークにおける計算精度を明言することを避けているため、この数値はやや曖昧です。そして、その精度が大きな違いを生むでしょう。

「単一システムの時代は終わりました」とストーン氏は付け加えた。「クラウドTPUは、まさにダイヤルを回せるツールです。小規模なシステムでモデルを構築し、実行させてからダイヤルを回すだけで、トレーニング時間を数時間から数分へと短縮できます。」

Google は数か月以内に新しい TPU の大規模な導入を開始する予定です。®

続きを読む: GoogleのTPU 3.0 AIコプロセッサを分解する

Discover More