Ampere は本日、クラウドおよびハイパースケーラー サーバー向けの 80 コア 64 ビット Arm N1 プロセッサ、Altra を発表します。
一方、Marvell 社は 36 コアの 64 ビット Arm 部品を含む Octeon TX2 ファミリーの Arm マイクロプロセッサの追加を発表し、Xilinx 社は Alveo U25 ネットワーク カードを宣伝する予定です。
これらの発表は、今週シリコンバレーで開催される予定だった Open Compute Project Global Summit の開始に合わせて行われたが、COVID-19 コロナウイルスの発生により中止となった。
AmpereのAltra: TSMC社製の7nmノードサーバーグレードマイクロプロセッサで、最大80個の64ビットCPUコアをグリッド状のキャッシュコヒーレントメッシュ構造で搭載し、パッケージあたり最大210Wの消費電力を実現します。Arm設計のN1コアはArmv8.2+と互換性があり、ターボモードでは最大3GHzのクロック速度を実現し、「アグレッシブ」なアウトオブオーダー実行が可能な4ワイドスーパースカラーパイプラインを備えています。
このプロセッサは、検索、AI推論、ビデオトランスコーディング、仮想マシンとコンテナのホスティング、データストレージの管理、データベースとウェブアプリケーションの実行を目的としています。ターゲット市場は、データセンターに膨大な汎用コンピューティング能力を詰め込み、オーケストレーションを用いて利用可能なシステムにソフトウェアとサービスを動的に展開する通信事業者、パブリッククラウド構築事業者、そしてハイパースケーラーです。Ampereのシニアプロダクトバイスプレジデントであるジェフ・ウィティッチ氏は、「あらゆるクラウドインフラ向けに設計されているため、プライベートクラウドでも採用が進むと見込んでいます」と述べています。
興味深いことに、Ampereはシングルスレッド性能の強化に熱心に取り組んでいました。これは、AMDのEpyc SMTのように、各CPUコアで2つ以上のハードウェアスレッドが同時に実行されるプロセッサ設計ではありません。Ampereは、これによりAltraは一貫性と予測可能なパフォーマンスを実現し、ノイズの多い隣接コードやパイプラインリソースの競合を回避できると主張しています。これは、AMDのようにハードウェアで同時マルチスレッドを提供しない理由を説明するようなものです。(IntelのSMT技術は安全ではありません。)
SPARCが好調、オラクルがArmサーバープロセッサ設計会社Ampereに4000万ドルを投資
続きを読む
Altraコア1つあたり64KBのL1命令キャッシュとデータキャッシュ、コア1つあたり1MBのL2キャッシュ、32MBの共有L3キャッシュ、そして2つの128ビットSIMD実行ユニットが、すべてモノリシックシリコンダイ上に搭載されているとのことです。Altraは複数ソケット間のキャッシュコヒーレンシをサポートしているようです。
各プロセッサは、最大8つの72ビットDDR4-3200メモリチャネルを搭載し、200GB/秒以上の速度で動作し、ソケットあたり最大4TBのRAMをアドレス指定できます。つまり、チャネルあたり2枚のDIMM(3200MHz)を搭載した場合、アクティブチャネル数は4、6、8となります。Ampereによると、メッシュ設計により、CPUコア全体で均一なメモリレイテンシが確保されます。
IOに関しては、Altraはシングルソケットで128レーン、2ソケットシステムでは192レーンのPCIe 4を提供し、最大4つのCCIXベースのアクセラレータをサポートします。オペレーティングシステムの起動に関しては、ハードウェアはServer Base System Architecture(SBS)レベル4に準拠し、セキュアブートメカニズム、DRAM RASエラーレポート、電源管理および温度制御、AI推論のためのINT8およびFP16演算アクセラレーション、AESおよびSHA-256アクセラレーション、その他一般的な機能を備えています。
パフォーマンス面では、Ampereは、3.3GHzにオーバークロックした80コア/ソケットのデュアルソケットAltraは、SPECrate2017_intベンチマークの推定値において、2.25GHz、64コア/ソケット(128スレッド/ソケット)のデュアルソケットAMD Epyc 7742と同等であると主張しました。これは推定値ですが、Ampereはベンチマークコードの構築にAMD64コンパイラスイートを使用し、AltraベンチマークビルドにはGCC 8.2を使用したため、AMDのスコアを0.835倍にスケールアップしています。AMDのC/C++コンパイラは、Arm向けにGCCよりも最適化されたコードを生成するのです。
また、2019年中期のEpycはL3キャッシュが256MBであるのに対し、Altraは32MBです。期待しすぎる前に、Altraのパーツを1つか2つ使ってワークロードを評価した方が良いでしょう。
一方、Ampere社の次世代7nmプロセスMystiqueチップは2021年発売に向けて開発中とのことで、2022年発売予定の5nmプロセスSirynも現在構想段階にある。同社は2018年、Applied Micro社から取得したX-Geneの設計図をベースにした32コアのeMAGプロセッサを宣伝していた。Ampere社の歴史とアプローチについては、姉妹サイトThe Next Platformのこちらとこちらで詳しく読むことができる。
Ampere社は、AltraがUbuntu、CentOS、Red Hat、SUSE、Debianなどの主要なGNU/Linuxディストリビューションに加え、FreeBSDとWindows Serverを起動できると保証しました。チップセットとスタックは仮想化、Docker、Kubernetesのコンテナ化をサポートしています。Ampere社に対し、アウトオブオーダー実行パイプラインに潜むSpectre型のサイドチャネル攻撃にどのように対処しているか説明を求めました。「Ampere Altraには、SpectreとMeltdownに対する完全なハードウェア緩和策が組み込まれています」とWittich氏は答えました。
Altraは現在サンプル出荷中で、2020年半ばの出荷が予定されています。デュアルソケットのMt JadeとシングルソケットのMt Snowという2つのサーバープラットフォームも、1Uと2Uの形式で提供されます。
XilinxのAlveo U25:これはいわゆるSmartNICです。高レベルのC言語風言語または低レベルのハードウェア設計言語を使用して構成可能なPCIe FPGAボードで、ネットワークパケットを監視・操作できます。つまり、チップレベルで転送中のデータを検査・調整し、必要に応じてカスタマイズしたネットワークアダプターを構築できるのです。
内部には、Arm Cortex-A53 CPUコア4基を搭載したZynq UltraScale+ XCU25 FPGA、XtremeScale Ethernetコントローラ、1GBの40ビットおよび2GBの72ビットDDR4-2666 RAM、PCIe 3インターフェース、そして2つの10/25GB SFP28 DA銅線または光トランシーバが搭載されています。Solarflare社と共同で取得したOnloadテクノロジーを搭載しており、アプリケーションはTCP/IPスタックとカーネルコードを経由することなくNICに直接アクセスできます。また、仮想化サポートなど、様々な機能も搭載されています。少なくともRed Hat Enterprise Linuxとその派生製品では動作します。
Xilinx は、Open Compute Project 仕様 3.0 フォーム ファクターの XtremeScale X2562 10/25GbE アダプタ カードも発表しました。
MarvellのOcteon TX2: Marvellは、Arm互換のOcteon TX2プロセッサのラインナップを拡充しました。このプロセッサは、Caviumから買収したThunderX2設計に基づいています。Caviumは、ThunderX2の設計図をBroadcomから入手していました(当時、ThunderX2はVulcanと呼ばれていました)。その歴史について詳しくは、こちらをご覧ください。
これらのプロセッサは、スイッチ、ゲートウェイ、監視機器、スマートNIC、5G基地局といったネットワークインフラを対象としています。追加機能は2つのグループに分かれています。
CN913xファミリーは、最大2.2GHzのクロックで動作する4つの標準Arm Cortex-A72 CPUコアを搭載し、コアあたり48KBの命令キャッシュと32KBのデータキャッシュ、512KBのL2キャッシュブロック2つ、そして1MBのL3キャッシュを備えています。PCIe 3、1GbE、5GbE、10GbEのネットワークポートの組み合わせ、SATAおよびUSBインターフェース、その他ビットとバイトをサポートしています。
一方、CN92xx、CN96xx、CN98xxはより強力で、パケット検査、スイッチング、その他より要求の厳しいタスクを対象としています。これらのモデルは、最大2.4GHzで動作する64ビットArmv8.2 Octeon TX2 CPUコアを12~36個搭載し、コアあたり最大66KBの命令L1キャッシュと41KBのデータL1キャッシュ、チップあたり最大29MBのL2およびL3キャッシュ、10~100GbEネットワーク、ECC対応PCIe 4およびDDR4、セキュリティコプロセッサ、そして各種周辺機器を備えています。
CN913x、CN92xx、CN96xx は現在開発キットおよびリファレンス デザインとともに入手可能で、CN98xx は次の四半期にサンプル出荷される予定です。®