9月10日,Arm宣布推出全新Lumex计算子系统 (Compute Subsystem, CSS) 平台以及全新的 C1 系列CPU与Mali G1-Ultra GPU。不同于单点性能的堆叠,这次更新更像是一套系统性的答案:CPU 与 GPU的角色被重新定义,平台化整合和生态支持成为重点,目的直指一个方向——让 AI真正普及到每一台设备。
发布会后,Arm 终端事业部产品管理副总裁 James McNiven、Arm终端事业部产品管理总监Ronan Naughton分享了更多关于Lumex平台,全新C1系列CPU、G1系列GPU的更多技术细节。
Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU 及系统 IP,不仅能助力生态伙伴更快将 AI 设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。James McNiven表示,根据具体的实现方案和运行频率,第二代可伸缩矩阵扩展 (SME2) 在技术上可提供额外 2 到 6 TOPS 的算力。
乍看之下SME2提供的这些额外算力并不耀眼,毕竟当前很多厂商的NPU已经能够做到上百TOPS的算力,但 Arm 终端事业部产品管理副总裁 James McNiven 却多次强调它的重要性:“很多 AI 任务的瓶颈不在算力,而在内存带宽。SME2 的优势是直接在 CPU 内核执行,能即时访问缓存和系统内存。”
他进一步解释到,即使NPU拥有 100 TOPS算力,如果无法足够快速地提供数据,这种峰值性能也难以被充分利用。通过启用 SME2直接在 CPU核心上运行,能够以低延迟访问缓存和系统内存,因此在处理一些规模小、频繁触发且对延迟敏感的任务时极为高效。
这种设计意味着SME2并非要取代NPU,而是补足CPU在AI时代的新使命。ARM认为,不同的计算单元有不同的长处,各自针对不同类型的 AI 工作负载进行优化:NPU 擅长高吞吐量、大模型的推理任务,例如大语言模型 (LLM)、视觉 Transformer;GPU 更适合并行性强、与图形相关的 AI 任务,例如渲染加上 AI 图形优化升级;而搭载 SME2 的 CPU,则在需要与系统逻辑紧密集成的低延迟、持续在线的小模型任务中有卓越表现。
SME2的落点,正是 Arm全新推出的 C1 CPU系列。全新的C1系列为不同层级的设备提供分层设计:
C1-Ultra瞄准旗舰,单线程性能提升 25%,AI 性能提升 5 倍,适合大模型推理与高性能创作;C1-Premium 在性能与面积之间找到平衡,面向次旗舰市场;C1-Pro 强调持续性能,适合长时间的流式任务,如视频播放、语音交互;C1-Nano 则在小型化与能效上做到极致,为可穿戴设备提供可能。
正如Arm产品管理总监Ronan Naughton所说:“CPU永远是通用核心。AI会在 CPU、GPU、NPU 和云端之间异构运行,但CPU在系统层面始终是中心组件。”C1系列因此不仅是一次性能升级,更是 Arm把CPU定位为“普适AI执行层”的体现。
如果说CPU的重心在于普适与低延迟,那么 GPU的升级则让它承担起图形和AI的双重角色。
新一代 Mali G1-Ultra 在图形渲染方面集成了RTUv2光线追踪单元,性能相比前代翻倍,使移动端的游戏画质更接近桌面级体验;在 AI 运算上,它带来了最高 20% 的推理性能提升,并首次增加了FP16指令支持,专门面向低精度AI模型的运行效率。
Arm终端事业部产品管理总监McNiven 认为,这是 GPU 角色演进的关键一步:“我们看到 AI 正在重塑图形领域。未来 GPU 不仅是画质渲染器,更是智能视觉平台。”这正呼应了 Arm 推出的 神经图形(Neural Graphics) 概念:通过 AI 实现超分辨率、帧生成和降噪,让 GPU 成为连接感知与视觉体验的枢纽。
此前ARM带来的CPU与GPU的更新,并不是孤立的硬件模块,而被打包进了新的 Lumex CSS 平台。CSS(Compute Subsystem,计算子系统)的定位,是为合作伙伴提供一套可直接复用的底层架构。
它包括最新的C1 CPU、Mali GPU,以及支持最多 14 个处理单元的 C1-DSU(DynamIQ Shared Unit),并提供基于 3nm 工艺的物理实现路径。厂商可以选择直接采纳Arm的参考设计,也可以在此基础上增加自家的 NPU、ISP等模块,快速推出差异化的 SoC。
“Lumex CSS 不是提供完整芯片,而是专注于平台中计算密集的部分,其余部分仍需合作伙伴自行集成”。这种方案的好处当然是能够帮助合作伙伴缩短设计周期。同时McNiven 也强调,这种定位让 Arm 在为生态赋能的同时,也避免了与客户直接竞争成品芯片。
硬件能力如果不能被开发者轻松调用,便难以转化为用户价值。为此,Arm 推出了 KleidiAI 软件库,作为SME2与主流AI框架之间的桥梁。
KleidiAI已集成到PyTorchExecuTorch、GoogleLiteRT、阿里巴巴MNN、微软ONNX Runtime 等框架中。开发者几乎无需额外修改代码,就能直接获得 SME2 的加速能力。这种“开箱即用”的方式,大幅降低了开发门槛,也为生态伙伴的快速验证提供了基础。
这些努力正在转化为真实的用户体验。Arm 提供的数据显示:支付宝在 vivo新旗舰上的测试中,大语言模型预填充性能提升 40%,解码性能提升 25%;淘宝的商品识别速度提升 25%,显著改善购物场景的交互体验;Stability AI的音频生成速度提升三倍,实现了端侧实时生成;腾讯混元大模型的端侧推理延迟大幅降低,使交互更自然。
这些案例说明,SME2 与 Lumex CSS 平台并不是停留在实验室的概念,而是真正能落地到应用中、被用户感知的改进。
在端侧 AI 上,不同厂商正在走不同的路。高通通过 HexagonNPU 主打大模型推理,强调峰值算力;联发科利用 APU 与 GPU 结合,强化影像和游戏场景;苹果则凭借自研 GPU 和神经网络引擎,形成高度闭环的生态优势。
相比之下,Arm 的思路并非“追逐极致”,而是“构建普适层”。通过 SME2,让 CPU 拥有低延迟 AI 能力;通过 Mali GPU,把 AI 引入视觉体验;通过 Lumex CSS,提供可复用的计算基座。这种策略更像是在为整个生态打地基,让不同厂商都能在此之上构建差异化。
Arm 预计,到 2030 年,SME与 SME2技术将覆盖超过 30 亿台设备,新增超过100亿TOPS的算力。未来几年,CPU、GPU与NPU不再是竞争关系,而是各自找到最合适的角色,共同构成端侧 AI 的计算框架。而 Lumex CSS 平台,正是 Arm 期望用来推动产业走向 AI 普适化时代的底层基础。