Arm は、新しい CPU と GPU の設計、再設計された相互接続とメモリ管理ロジックで構成される最新のモバイル プラットフォームを公開しました。これらはすべて、AI 対応スマートフォンの今後の波を念頭に置いて最適化されています。
英国を拠点とするチップ設計会社は、数年前からコアを提供するだけでなく、より統合されたソリューションへと移行しており、今年の Lumex コンピューティング サブシステム (CSS) はその哲学の最新の進化形です。
Arm は各世代と同様に、設計からパフォーマンスと電力効率をさらに高めることに成功しており、CPU では平均 15 パーセント、GPU では平均 20 パーセントの向上を達成しながら、電力は 15 パーセント節約していると主張しています。
Lumex の主な焦点は、CPU クラスターにおける Arm の SME2 スケーラブル マトリックス拡張機能です。同社はこれを AI アクセラレーションの推奨ルートとして推進しており、全体的なシステムレベルの最適化によって AI モデルを実行できるデバイスのスケーラビリティを向上させています。
CPU 担当シニアディレクターのステファン・ロジンガー氏は、SME2 により AI アクセラレーションが従来よりも「桁違いに向上」し、モバイルデバイスにとっての利点は消費電力が少なく、計算がより速く完了することだと述べた。
Arm社によると、Lumexは今年後半か来年初めにスマートフォンなどのデバイスに搭載される見込みです。3nmプロセスでの製造を念頭に開発されており、Arm社はライセンシーが製造するチップが4GHz以上のクロック速度で動作すると予想しています。
まれに常識が外れて、Lumex CPU クラスターのすべてのコアは C1 と指定され、最高パフォーマンスのコア設計は C1-Ultra とラベル付けされています。
Armの新しいC1 CPUクラスターの詳細を説明するスライド - クリックして拡大
現在、ほとんどのスマートフォンチップは複数のコアタイプを組み合わせ、高負荷の作業に対応する1~2個の高性能コアと、その他のタスクを処理するための消費電力最適化コアを搭載しています。これは数年前に「big.LITTLE」として始まりました。
Arm は Lumex によって、チップ設計者に少なくとも 4 種類のコアから選択できる選択肢を提供し、次のステップとして C1-Premium を追加し、その次に C1-Pro、そして最後に最も小さなフットプリントで最大の電力効率を誇るコアとして C1-Nano を追加しました。
Armは、フラッグシップスマートフォン向けのチップには2つのC1-Ultraコアと6つのC1-Proコアが組み合わされる可能性が高いと考えている。一方、「サブフラッグシップ」シリコンには2つのC1-Premiumと6つのC1-Proの組み合わせが使用され、主流には4つのProと4つのNanoの組み合わせが採用される可能性がある。
GPU部門では、LumexプラットフォームにはMali G1が搭載されており、CPUコアと同様に、Mali G1-Ultra、Mali G1-Premium、そしてMali G1-Proのグレード分けがされています。これらの3つのグレードの違いはシェーダーコアの数で、Proは1~5コア、Premiumは6~9コア、Ultraは10コア以上となっています。
Mali G1-Ultra は、Arm の再設計されたレイ トレーシング ユニット (RTU) を搭載した唯一の層でもあり、昨年の Immortalis-G925 よりも 40% 高いパフォーマンスと、ゲームの品質の向上を実現するとされています。
新しい GPU 設計では、半精度 (FP16) 行列乗算をサポートすることでゲーム内 AI を高速化するとも主張されており、Arm は、これによりメモリ帯域幅が削減され、消費電力が低減されるとともにテンソル処理が改善されると主張しています。
Arm はすでに来年の携帯電話 GPU に搭載予定のニューラル アクセラレータ ハードウェアを披露していますが、これは今年の Lumex の Mali G1-Ultra には含まれていません。
この完全なコンピューティング サブシステムには、スマートフォンで AI モデルを実行することで生じる可能性のある要求に対応するために設計された、新しい専用のシステム インターコネクト (SI) とシステム メモリ管理ユニット (SMMU) が含まれています。
同社によれば、システム相互接続は、さまざまなトラフィックにサービス品質 (QoS) の優先順位を付与できる、Arm がチャネル化アーキテクチャと呼ぶものに再設計され、システム MMU は、レイテンシを最大 75 パーセント削減するように最適化されているという。
もちろん、これはハードウェアだけの問題ではなく、Arm はさまざまな開発者フレームワークが最新のプラットフォームで行われる最適化をサポートするように舞台裏で取り組んできたと述べています。
KleidiAI ライブラリは、PyTorch、Llama、LiteRT、ONNX などのフレームワークと統合されており、AI ワークロードの実行時に SME2 アクセラレーションをサポートできます。
もちろん、ArmはAI処理はCPU上に保持されるべきだと考えている。「CPUはモバイル市場において、あらゆる携帯電話に搭載されていると信頼できる唯一のコンピューティングユニットだからだ」と、ArmのAIおよび開発者プラットフォーム担当フェロー、ジェラント・ノース氏は言う。
「GPU と NPU (ニューラル プロセッシング ユニット) に移行し始めると、さまざまな端末に対してさまざまな作業を行うことになります」と同氏は説明し、ベンダーがスマートフォン シリコンにさまざまな GPU と NPU を選択している可能性があるとした。
これは論理的な見解ですが、必ずしも誰もが同意するものではありません。アナリストのガートナーは、GenAIスマートフォンを、小規模な言語モデルを実行できる内蔵ニューラルエンジンまたはニューラルプロセッシングユニット(NPU)を搭載したデバイスと明確に定義しています。
同社は、プレミアム スマートフォンとベーシック スマートフォン (350 ドル以下) がこの説明に該当し、「ユーティリティ スマートフォン」のみが NPU 機能を持たないと予想されていると宣言しています。
これは間違いなく、スマートフォンチップに統合型 NPU を搭載し、昨年の MWC ショーで Android フォンで実行される 70 億パラメータの大規模言語モデルを披露した Qualcomm にとって都合が良いでしょう。
- アームは年末までにデータセンターの50%を所有すると予測している
- Armプロットは、エンドツーエンドのシリコンへのプッシュによりスタックを上に移動します
- ARMがサーバー市場に参入 - しかしx86からの主導権はまだ奪えない
- アーム、クアルコムの重要なチップライセンスの廃止を断念
TECHnalysis Research の社長兼チーフアナリストであるボブ・オドネル氏は、現在の市場の状況を考えると、Arm のアプローチは理にかなっていると語った。
「まず、NPUアーキテクチャの多様性と標準化の欠如により、AIアプリケーションにNPUを実際に使用しているソフトウェア開発者はほとんどいません。代わりに、CPUとGPUをデフォルトとして採用し、Armの最新のSME2命令とロジックを活用することで、これらの機能を高速化できるようになります」と彼はThe Registerに語った。
「第二に、Armのパートナー企業の多くは独自のNPU設計で差別化を図っており、Armからの新たな選択肢は、NPUに関する混乱をさらに悪化させる可能性があります。NPUがより頻繁に利用されるよう、さまざまなNPUアーキテクチャを活用するための標準化された手段がすぐに登場してくれることを期待していますが、まだ数年かかるのではないかと懸念しています。」
Arm のシリコン ライセンシーは、今、賭けに出なければなりません。CPU に SME2 を採用した Arm のアプローチの方が人気が出るのでしょうか。それとも、スマートフォン メーカーや一般の購買層が内蔵 NPU を求めるのでしょうか。®