インテル、1TB/秒の光学チップを内蔵した8コア、528スレッドのプロセッサを発表

Table of Contents

インテル、1TB/秒の光学チップを内蔵した8コア、528スレッドのプロセッサを発表

Hot Chips Intel は、今週カリフォルニアで開催された Hot Chips カンファレンスで、1TB/秒のシリコンフォトニクス相互接続を備えた 528 スレッド プロセッサを披露しました。このプロセッサは、消費電力を節約しながら、最大の分析ワークロードを処理できるように設計されているものです。

超並列化されたXeonを期待している人にとっては、これは違います。このチップはx86ベースですらないのです。

代わりに、DARPAの階層的ID検証エクスプロイト(HIVE)プログラム向けにカスタムRISCアーキテクチャを用いて特別に構築されました。この米軍の取り組みは、従来のコンピューティングアーキテクチャよりも100倍高速にストリーミングデータを処理でき、消費電力も低減できるグラフ分析プロセッサの開発を目指しています。

グラフ分析は、複雑なシステムにおけるデータポイント同士のつながりを扱います。Intelのプリンシパルエンジニアであるジェイソン・ハワード氏がHot Chipsのプレゼンテーションで示した例はソーシャルネットワークで、メンバー間のつながりを理解するためにグラフ分析ワークロードを実行する可能性があります。

これを非常に高性能な「Six Degrees of Separation」(またはケビン・ベーコン)と考えれば、その意味が分かるでしょう。

これは DARPA が検討するものとして奇妙に思えるかもしれないが、政府機関は大規模なグラフ分析がインフラ監視とサイバーセキュリティに応用できると考えている。

ホットチップスといえば、見逃せないのが:

  • Arm は、データセンター プロセッサに組み込むための完全な設計セットとして Neoverse CPU コアを提供しています。概要と技術的な詳細について説明します。
  • Google が TPUv5e AI アクセラレータを宣伝: 概要と技術分析。
  • さらに、Google はクラウド内に Arm 互換の AmpereOne 搭載仮想マシン インスタンスを準備しており、Intel は次世代 Xeon プロセッサ向けに AMD の仕様に注目しており、AMD はエッジ フレンドリーな Epyc チップを予告しています。

このチップは、インテル初のダイレクト・メッシュ・ツー・メッシュ・フォトニック・ファブリックの一部であり、シリコンフォトニック相互接続を用いて複数のチップを繋ぎ合わせます。しかし、銅配線を用いて2個、4個、あるいは8個のソケットを繋ぎ合わせるのではなく、インテルはコパッケージ化された光学部品を用いて、数百、あるいは数千個のチップを低遅延かつ高帯域幅のメッシュで接続しました。

いずれにせよ、それはアイデアであり、チップはまだプロトタイプです。

シリコンフォトニクスによるグラフ分析のスケールアップ

目標は、最大規模のグラフ分析ワークロードもサポートできるように拡張できるテクノロジを開発することです。

中央のコンピューティングダイを囲む4つのチップレットは、Intelのプロトタイプに1TB/sの光帯域幅を提供します。

中央のコンピューティングダイを囲む4つのチップレットは、Intelのプロトタイプに1TB/sの光帯域幅を提供します - クリックして拡大

このチップは一見すると、いくつかの追加機能を備えた標準プロセッサのように見えますが (Xeon-D チップに見られるものとあまり変わらない、かなり一般的な BGA インターフェースも備えています)、チップに出入りするデータのほとんどは、Ayar Labs と共同で開発されたシリコン フォトニクス チップレットを使用して光学的に送信されます。

中央処理ダイを囲む4つの小さなチップレットは、マイクロプロセッサに出入りする電気信号を32本のシングルモード光ファイバーで伝送される光信号に変換します。私たちの理解では、これらの光ファイバーのうち16本はデータ送信用、残りの16本はデータ受信用です。

インテルによると、これらのファイバーはそれぞれ32GB/秒の速度でチップ内外を伝送でき、合計1TB/秒の帯域幅を実現できるという。しかし、ハワード氏によると、テストではその半分の速度しか達成できなかったという。

Intel のプロトタイプに出入りするデータのほとんどは光学的に送信されます。

ご覧のとおり、インテルのプロトタイププロセッサに出入りするデータのほとんどは光学的に送信されます...クリックして拡大

Intelの構想では、これらのチップ16個が、スレッドフォームファクターの単一のOpen Compute Projectサーバー上で、All-to-All構成でネットワーク接続されます。さらに、複数のスレッド(最大10万台)が、スレッド間構成で再びネットワーク接続されます。その結果、どのスレッドに搭載されているかに関係なく、どのチップでも非常に低いレイテンシで他のチップと通信できるようになります。

だからといって、x86の巨人が光ファイバーの連携に課題を抱えなかったわけではない。宣伝通りの半分の帯域幅しか実現できなかっただけでなく、ハワード氏によると、光ファイバーが頻繁に不具合を起こしたり、破損したりしたという。

「全ての調整と動作確認が完了後、脆いファイバーのため、ファイバー接続に問題が多発し、すぐに外れてしまうという問題が発生しました」とハワード氏は述べた。「また、パッケージ全体のリフロー工程で、熱の影響による光学的な問題が発生し、最終的に光学的な歩留まりが低下することも分かりました。」

これらの課題を克服するために、インテルはパートナーと協力して、熱障壁の低い新しい素材を開発する必要があったとハワード氏は説明した。

  • AMDの最先端:簡素化されたSiena Epycが発表
  • Google、Cloud Nextで新チップ、GPUなどを搭載しAIツールセットを強化
  • インテルは来年のXeonがメモリとIOチャネルでAMDに挑戦すると約束
  • アーム社は中国との貿易戦争に対していかに脆弱であるかを明らかに

シリコンのボトルネックへの取り組み

この新しいシステムが必要だったのは、Intel の現在の商用キットはグラフ分析のワークロードを高速化できるものの、拡張性が不足していたためです。

「Xeonは、グラフデータセットの1つを取得してキャッシュに保存し、非常に高速に処理することができます」とIntelのハワード氏は述べた。しかし、これらのデータセットをスケールさせ始めると、パフォーマンスと効率のボトルネックに直面するようになる。

そこで、チームはグラフ分析に最適化された新しい種類のプロセッサの開発に着手し、シリコン内で最適化できるワークロード固有のいくつかの癖をすぐに発見しました。

「これらは超並列、実際、驚くほど並列であることがすぐに分かりました。そのため、並列処理を多く利用して全体的なパフォーマンスを向上させることができました」とハワード氏は述べ、チームはメモリとキャッシュの使用率に関する問題も発見したと付け加えた。

「キャッシュ ラインをプロセッサに組み込むと、通常は 8 バイトしか使用せず、残りの 64 バイトは結局使用せずに捨ててしまうことになります」と氏は述べ、大規模なアウトオブオーダー パイプラインが多数存在する場合は常にシステムに不要な負担がかかっていたと説明した。

ダイの中央の大きな部分は、一緒にパッケージ化された光学系から流入するデータの流れを制御するルーター専用です。

ダイの中央の大きな部分は、共パッケージ化された光学部品から流入するデータの流れを制御するルーター専用です。 - クリックして拡大

こうした設計上の考慮事項が、チームにこの実験的なプロセッサの開発を促しました。このプロセッサは TSMC が 7nm FinFET プロセスを使用して構築しており (ご存知ない方のために言っておくと、Intel は長年にわたり CPU 以外の多くの製品を TSMC で製造しています)、コアが 8 個あり、各コアに 66 スレッドが搭載されています。

ハワード氏によると、このチップは革新的なメモリアーキテクチャを採用しており、これはグラフ分析ワークロード向けに最適化するための重要な機能だという。チップには32GBのDDR5 4400MT/sメモリが搭載されており、8バイト単位のアクセスを可能にするカスタムメモリコントローラを介してアクセスされる。ハワード氏によると、これは「メモリからデータラインを引き出す際、そのデータラインの7/8を無駄にするのではなく、すべてを活用しようとする」という点で有利だったという。

8x 接続の PCIe 4.0 により、ホスト システムへの接続が可能になります。

インテルはまた、計算ダイに出入りする膨大なトラフィック量を処理する方法も考え出さなければなりませんでした。理論上、その量は1TB/秒にも達する可能性があります。ハワード氏によると、この要件こそが、ダイの大部分をルーターに割り当てている理由です。

スレッドとネットワークを多用するチップは熱くなるのではないかと心配されるかもしれませんが、実際にはそうではありません。このチップは1GHz動作時に最大75ワットの電力を消費します。Intelによると、16スレッド構成では8TBのメモリ、2,048コア、135,168スレッドを処理し、約1.2kWの電力を消費します。112コア、224スレッドのデュアルソケットSapphire Rapidsシステム1台でも、高負荷時には簡単にこれだけの電力を消費することを考えると、悪くない数字です。

インテルは、これらのチップを10万スレッドのメッシュにまで拡張可能なリグに組み込み、最大規模のグラフ分析ワークロードでもほぼ線形のパフォーマンススケーリングを実現できると想定しています。しかし、この夢はまだ実現されていません。インテルはこれまで、ファブリックに接続された2つのチップのみをテストしているからです。

インテルがこの設計を商品化できるかどうかは資金次第だとハワード氏は説明した。「もし資金を提供してくださる方がいらっしゃれば、喜んでこれらの製品を開発します。」®

Discover More