アップルは先週、自社設計のシリコンを搭載した初のパソコンを発売し、インテルを驚かせた。
同社によれば、M1 Armチップは、Intel x86 CPUを使用する前世代のMacと比較して、CPUパフォーマンスが最大3.5倍、GPUパフォーマンスが最大6倍、機械学習が最大15倍高速化し、バッテリー寿命が最大2倍長くなるという。
Apple が M1 システムオンチップ (SoC) の高帯域幅メモリを使用してこの大幅なパフォーマンス向上を実現する方法を詳しく見てみましょう。
高帯域幅メモリ(HBM)は、インターポーザ層を介してプロセッサに接続されたメモリをプールすることで、従来のCPUソケットメモリチャネル設計を回避します。HBMはメモリチップを統合し、プロセッサとの距離がわずか数マイクロメートル単位であるため、CPUへのより近いアクセスと高速アクセスを実現します。これにより、データ転送速度が向上します。
Apple初のMac用SoCであるM1は、チップファウンドリTSMCが5nmプロセス技術を用いて160億個のトランジスタを用いて製造しています。8コアCPU、8コアGPU、16コアニューラルエンジン、ストレージコントローラ、画像信号プロセッサ、メディアコード/デコードエンジンを搭載しています。
この Apple の M1 SoC の図には、2 つの DRAM ブロックが示されています。
Apple M1統合メモリアーキテクチャ
このSoCは16GBの統合メモリにアクセスできます。このメモリは4266 MT/sのLPDDR4X SDRAM(同期DRAM)を採用しており、システムインパッケージ(SiP)設計でSoCに搭載されています。SoCは単一の半導体ダイから構築されますが、SiPは2つ以上の半導体ダイを接続します。
SDRAMの動作はSoCの処理クロック速度に同期されます。AppleはSDRAMを高帯域幅、低レイテンシのメモリの単一プールと表現し、アプリがCPU、GPU、Neural Engine間で効率的にデータを共有できるようにします。
つまり、このメモリは3つの異なるコンピューティングエンジンとそのコア間で共有されます。3つのエンジンはそれぞれ独自のメモリリソースを持たないため、データの移動が必要になります。例えば、CPUで実行されているアプリがグラフィック処理を必要とする場合、GPUがメモリ内のデータを使用して処理を開始します。
この設計の欠点は、拡張性とパフォーマンスがトレードオフになっていることです。ユーザーは構成にメモリを簡単に追加することはできません。キャリアが存在せず、DIMMテクノロジーも使用されていないため、キャリアにメモリDIMMを追加することはできません。
すべてのストレージ コントローラ、SmartNIC、DPU が、統合メモリ プールを備えた Arm SoC を使用して、メモリ ソケットと DIMM によって制限される従来の x86 コントローラよりもはるかに高速にワークロードを実行できるようになる未来が想像できます。
例えば、Nebulonのストレージ処理ユニット(SPU)はデュアルArmプロセッサを使用しています。これを統合メモリ設計に移行することで、Nebulonはストレージ処理ワークロードの実行能力をさらに高め、x86ベースのストレージコントローラをパフォーマンス、コスト、効率の面で現在よりもさらに上回ることができるようになると考えられます。®