アマゾンは機械学習オタク向けにAI推論チップをクラウドでレンタル提供

Table of Contents

アマゾンは機械学習オタク向けにAI推論チップをクラウドでレンタル提供

re:Invent Amazon Web Services は、カスタム設計された AI チップ Inferentia 上で機械学習ソフトウェアを実行するためのクラウド インスタンスである Inf1 を一般に公開しました。

AWSのCEO、アンディ・ジャシー氏は火曜日、インターネットの巨人であるAWSがラスベガスで開催する年次カンファレンス「re:Invent」でこのサービスを発表しました。Inf1はEC2インスタンスとして提供され、開発者は最大16個のAWS Inferentiaチップを搭載した仮想マシンにアクセスできます。これらのチップは最大2,000TOPSの性能を発揮します。また、これらのチップはIntelの第2世代Xeonスケーラブルマイクロプロセッサと組み合わせられており、必要に応じてさらなる処理能力を発揮します。

AWS Inferentiaは、その名の通り、画像分類や顔認識、音声認識といった特定のタスクを実行するようにトレーニングされた機械学習モデルを用いた推論ワークロードの実行に最適化されたアクセラレータチップです。AWS Inferentiaは昨年初めて発表されましたが、エンジニアはついにクラウドサービス経由でこのハードウェアを使用できるようになりました。

CodeGuru: ML を活用したコードレビューと新しいプロファイラー

ウィンドウを閉じて、MLとAIを活用したコーディングを開く: AWS基調講演マラソンでの発表の乱痴気騒ぎ

続きを読む

ジャシー氏によると、Inf1インスタンスはより高速で安価です。AWSカスタムのIntel Cascade Lake CPUとNVIDIAのT4 GPUを搭載したAmazonのG4インスタンスと比較して、最大3倍のスループットを実現し、推論あたり最大40%のコスト削減が可能です。

AWS Inferentiaの仕様はやや不完全なものですが、現時点でわかっていることは次のとおりです。各チップは最大128TOPSの性能を持ち、FP16、BF16、INT8型で表現されるデータをサポートし、TensorFlow、Pytorch、MXNetといった幅広い機械学習フレームワークを処理できます。開発者がモデルをトレーニングする必要がある場合は、AWS上でGPUを使用する別のインスタンスを起動する必要があります。Inferentiaは推論を目的としていることを忘れないでください。

トレーニングされたモデルは、システムをコンパイルし、Inferentia ハードウェアで実行できるように最適化するツールのソフトウェア パッケージである AWS Neuron を使用して、Inf1 にデプロイできます。

AWSハードウェア関連のその他のニュースとして、Amazonは64ビットArm Neoverse N1コアを64基搭載した7nmプロセスCPU「Graviton2」を発表しました。これは、クラウドインスタンスとしてはまだ一般公開されていないため、今後の展開を垣間見る機会となります。Jassy氏の基調講演の全容については、こちらで詳しくご紹介しています。®

Discover More