AWS、AI向けにコア満載のGraviton4とより強力なTrainiumアクセラレーターを発表

Table of Contents

AWS、AI向けにコア満載のGraviton4とより強力なTrainiumアクセラレーターを発表

Re:Invent火曜日、Amazon Web Services は Re:Invent で次世代の Graviton4 CPU と Trainium2 AI アクセラレータを発表しました。同社によると、これらにより機械学習のパフォーマンスと効率が大幅に向上するという。

Amazonは、当然ながらGraviton4と名付けられた最新のカスタムビルドArm互換プロセッサを披露しました。2018年に第1世代Graviton CPUを発売して以来、Amazonは自社製プロセッサフ​​ァミリーへの堅調な需要を享受しています。Amazonによると、これまでに200万個以上のGravitonチップを導入しており、150種類のインスタンスタイプで5万社以上の顧客に利用されています。

「Graviton4は、わずか5年で私たちが提供した第4世代となり、幅広いワークロード向けにこれまでに構築した中で最も強力でエネルギー効率に優れたチップです」とAWSのコンピューティングおよびネットワーキング担当副社長、デビッド・ブラウン氏は語った。

Graviton4プロセッサのAWS配布画像

Graviのサウンド…AWSのカスタマイズされたGraviton4プロセッサはこんな感じになるはず

第4世代の設計は、Graviton3と比較して、演算性能が30%向上し、コア密度が50%、メモリ帯域幅が75%向上しているとされています。後者は、DDR5のコア数の増加と成熟度を考えると、当然の結果と言えるでしょう。

このチップは、Arm設計のNeoverse V2コアを最大96個搭載し(各コアは2MBのL2キャッシュを搭載)、12チャネルのDDR5 5600MT/sメモリをサポートします。Graviton4は、すべての物理ハードウェアインターフェースで暗号化トラフィックをサポートします。このプロセッサに関する詳細な解説と分析については、The Next Platformのブログをご覧ください。

Re:Inventでも

Amazonは例年通り、今年もラスベガスで開催された年次クラウドカンファレンスで大量の発表を行いました。CodeWhispererのアップデートについてはこちら、WorkSpacesシンクライアントのリリースについてはこちら、RustとKotlin向けのSDKについてはこちら、AppFabricの最新動向についてはこちら、そしてその他のニュースの概要についてはこちらをご覧ください。

その間、知っておきたいその他の情報は次のとおりです。

  • Amazonは、希望するクラウドアーキテクチャを説明するとAWSソリューションを提案してくれるQチャットボットをリリースしました。コンテンツ生成など、様々な機能も提供します。詳細はこちらをご覧ください。
  • また、同社はさまざまな AI モデルへのアクセスを提供する Bedrock サービス向けの安全ガードレールも発表している。
  • プレビュー中のものといえば、Amazon Aurora Limitless Database もあります。これは、「1 秒あたり数百万件の書き込みトランザクションを処理し、単一の Aurora データベースでペタバイト単位のデータを管理する、自動化された水平スケーリング」を提供するようです。
  • また、プレビュー版では、Amazon Redshift ML が SUPER 形式でのデータの取り込みと出力が可能になり、LLM と連携できるようになりました。Redshift には、AWS データベースとのゼロ ETL 統合も多数追加されました。
  • また、Redshift では、データベースのパフォーマンスを向上させるために、多次元データ レイアウト ソート キーのサポートが追加されました。
  • さらに、Amazon ElastiCache Serverless も利用可能になったとのことです。

Amazon の発表のまとめはここで、大きなリストはここでご覧いただけます。

まず、Graviton4はAmazonのメモリ最適化インスタンスR8gで利用可能になります。R8gインスタンスは、高性能データベース、インメモリキャッシュ、ビッグデータ分析などのワークロード向けにカスタマイズされています。これらのインスタンスは、最大64個のvCPUと512GBのRAMしか搭載できなかった従来のRg7インスタンスと比較して、最大3倍のvCPUと3倍のメモリを搭載した、より大規模な構成をサポートします。

Amazonは特定のインスタンスに対して最大数のvCPUしか提供していないため、これらのインスタンスで実際に192個のvCPUと1.5TBのメモリをどのように実現しているのかは不明です。ただし、Graviton3が単一のNitro DPUを搭載した斬新な3ソケット構成をサポートしていたことは分かっています。

AWSがGraviton4で同様のトポロジを採用している場合、これらのインスタンスは64コアチップを3基搭載していると考えられます。ただし、AWSが96コアを2基搭載した構成を採用している可能性もあります。これらのインスタンスは本日からプレビュー版として利用可能ですが、一般提供開始までには数か月かかる予定です。

Trainium2はLLMへの渇望とともに到来

AWSはGraviton4に加え、Trainium AIアクセラレータも刷新しました。このeコマース大手は2020年に初のトレーニングチップを発表し、Intelとの提携によりHabana Gaudiアクセラレータを展開しました。

Trainium2の登場により、Amazonは大規模言語モデル(LLM)と、チャットボットコンテンツ生成などの生成AIアプリケーション向け基盤モデルに注力していることは明らかです。アクセラレータの詳細はまだ不明ですが、Tranium2は前世代機と比較して4倍の高速なトレーニング性能に加え、メモリ容量は3倍、効率は2倍向上するとされています。

これは、Trainium2が96GBの高帯域幅メモリを提供することを示しています。ただし、トレーニングパフォーマンスの計算は、アクセラレータの性能、メモリとインターコネクトの帯域幅、浮動小数点の精度、データセットのサイズなど、すべてがこの指標に考慮されるため、少し複雑です。

  • AWSが生産性向上のためのAppFabricをプレビュー – アプリ間のAIを活用した接着剤として提案
  • AWSがFire TV Cubeをクラウドデスクトップのシンクライアントに変える
  • 今年のサーバー出荷は20%減少する見込みだが、AIの力でベンダーは依然として利益を上げている
  • アリババが量子研究所を閉鎖し、大学に寄付

これらのチップは、Amazon EC2 Trn2インスタンスの一部として16個単位のバンドルで提供されます。ただし、より大規模なワークロードの場合は、Amazon EC2 UltraClustersインターコネクトを介して最大10万個のアクセラレータに接続することで、ピーク性能65エクサフロップスまでスケールアウトできます。

アクセラレータ1台あたり650テラフロップスという計算になりますが、これらの性能がどの程度の精度で実現されているかは明確ではありません。推測するなら、初代Trainiumが約190テラフロップスだったことを考えると、FP16でしょう。おそらくより高速な高帯域幅メモリを考慮すれば、4倍の速度向上にかなり近づくはずです。

AWSにこれらのパフォーマンス指標について説明を求めました。いずれにせよ、Amazonはこの規模であれば、3,000億パラメータのLLMを数か月ではなく数週間でトレーニングできると主張しています。

リスクヘッジ

第 1 世代の Trainium チップと同様に、AWS はすべての卵を 1 つのバスケットに入れるわけではありません。

クラウドプロバイダーは、Nvidia との関係を拡大し、最大 32 個のクラスターで Grace-Hopper スーパーチップを展開すると発表しました。この構成は、チップメーカーが GH200-NVL32 と呼んでいる新製品の最初のものです。

このクラウド プロバイダーは、GH200、H200、L40S、L4 アクセラレータなど、Nvidia の最新世代のシリコンに基づく新しいインスタンスも提供することを計画しており、DGX Cloud プラットフォームを AWS に導入するよう取り組む予定です。

AWSとNVIDIAは、16,384基のGH200を搭載したAIスーパーコンピュータの開発に取り組んでいることを明らかにしました。このシステムは、AIワークロード向けに65エクサフロップスのFP8性能を実現します。Project Ceibaと呼ばれるこのシステムは、Microsoft Azureの大規模展開で見られるようなInfiniBandではなく、AmazonのElastic Fabric Adapterインターコネクトを使用するという点で独特です。

もちろん、これらすべては Nvidia の AI ソフトウェア スイートによってサポートされます。®

Nvidiaのその他の情報

この GPU 大手は本日、ビジネス アプリケーションに LLM チャットボットを追加するためのマイクロサービスも発表しました。これにより、ユーザーは自然言語による会話を通じて、企業データのクエリやアクセス、概要やその他のコンテンツの生成、タスクの実行などを行うことができます。

また、Nvidia は、現在 AWS 経由で利用可能となっている BioNeMo を、医薬品の発見を行うための生成 AI システムとして宣伝しました。

Discover More