不仅仅是提升算力，Arm要把AI普及到每一台设备_科技资讯

不仅仅是提升算力，Arm要把AI普及到每一台设备

创始人

2025-09-13 00:42:18

0次

9月10日，Arm宣布推出全新Lumex计算子系统 (Compute Subsystem, CSS) 平台以及全新的 C1 系列CPU与Mali G1-Ultra GPU。不同于单点性能的堆叠，这次更新更像是一套系统性的答案：CPU 与 GPU的角色被重新定义，平台化整合和生态支持成为重点，目的直指一个方向——让 AI真正普及到每一台设备。

发布会后，Arm 终端事业部产品管理副总裁 James McNiven、Arm终端事业部产品管理总监Ronan Naughton分享了更多关于Lumex平台，全新C1系列CPU、G1系列GPU的更多技术细节。

Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU 及系统 IP，不仅能助力生态伙伴更快将 AI 设备推向市场，还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。James McNiven表示，根据具体的实现方案和运行频率，第二代可伸缩矩阵扩展 (SME2) 在技术上可提供额外 2 到 6 TOPS 的算力。

乍看之下SME2提供的这些额外算力并不耀眼，毕竟当前很多厂商的NPU已经能够做到上百TOPS的算力，但 Arm 终端事业部产品管理副总裁 James McNiven 却多次强调它的重要性：“很多 AI 任务的瓶颈不在算力，而在内存带宽。SME2 的优势是直接在 CPU 内核执行，能即时访问缓存和系统内存。”

他进一步解释到，即使NPU拥有 100 TOPS算力，如果无法足够快速地提供数据，这种峰值性能也难以被充分利用。通过启用 SME2直接在 CPU核心上运行，能够以低延迟访问缓存和系统内存，因此在处理一些规模小、频繁触发且对延迟敏感的任务时极为高效。

这种设计意味着SME2并非要取代NPU，而是补足CPU在AI时代的新使命。ARM认为，不同的计算单元有不同的长处，各自针对不同类型的 AI 工作负载进行优化：NPU 擅长高吞吐量、大模型的推理任务，例如大语言模型 (LLM)、视觉 Transformer；GPU 更适合并行性强、与图形相关的 AI 任务，例如渲染加上 AI 图形优化升级；而搭载 SME2 的 CPU，则在需要与系统逻辑紧密集成的低延迟、持续在线的小模型任务中有卓越表现。

SME2的落点，正是 Arm全新推出的 C1 CPU系列。全新的C1系列为不同层级的设备提供分层设计：

C1-Ultra瞄准旗舰，单线程性能提升 25%，AI 性能提升 5 倍，适合大模型推理与高性能创作；C1-Premium 在性能与面积之间找到平衡，面向次旗舰市场；C1-Pro 强调持续性能，适合长时间的流式任务，如视频播放、语音交互；C1-Nano 则在小型化与能效上做到极致，为可穿戴设备提供可能。

正如Arm产品管理总监Ronan Naughton所说：“CPU永远是通用核心。AI会在 CPU、GPU、NPU 和云端之间异构运行，但CPU在系统层面始终是中心组件。”C1系列因此不仅是一次性能升级，更是 Arm把CPU定位为“普适AI执行层”的体现。

如果说CPU的重心在于普适与低延迟，那么 GPU的升级则让它承担起图形和AI的双重角色。

新一代 Mali G1-Ultra 在图形渲染方面集成了RTUv2光线追踪单元，性能相比前代翻倍，使移动端的游戏画质更接近桌面级体验；在 AI 运算上，它带来了最高 20% 的推理性能提升，并首次增加了FP16指令支持，专门面向低精度AI模型的运行效率。

Arm终端事业部产品管理总监McNiven 认为，这是 GPU 角色演进的关键一步：“我们看到 AI 正在重塑图形领域。未来 GPU 不仅是画质渲染器，更是智能视觉平台。”这正呼应了 Arm 推出的神经图形（Neural Graphics）概念：通过 AI 实现超分辨率、帧生成和降噪，让 GPU 成为连接感知与视觉体验的枢纽。

此前ARM带来的CPU与GPU的更新，并不是孤立的硬件模块，而被打包进了新的 Lumex CSS 平台。CSS（Compute Subsystem，计算子系统）的定位，是为合作伙伴提供一套可直接复用的底层架构。

它包括最新的C1 CPU、Mali GPU，以及支持最多 14 个处理单元的 C1-DSU（DynamIQ Shared Unit），并提供基于 3nm 工艺的物理实现路径。厂商可以选择直接采纳Arm的参考设计，也可以在此基础上增加自家的 NPU、ISP等模块，快速推出差异化的 SoC。

“Lumex CSS 不是提供完整芯片，而是专注于平台中计算密集的部分，其余部分仍需合作伙伴自行集成”。这种方案的好处当然是能够帮助合作伙伴缩短设计周期。同时McNiven 也强调，这种定位让 Arm 在为生态赋能的同时，也避免了与客户直接竞争成品芯片。

硬件能力如果不能被开发者轻松调用，便难以转化为用户价值。为此，Arm 推出了 KleidiAI 软件库，作为SME2与主流AI框架之间的桥梁。

KleidiAI已集成到PyTorchExecuTorch、GoogleLiteRT、阿里巴巴MNN、微软ONNX Runtime 等框架中。开发者几乎无需额外修改代码，就能直接获得 SME2 的加速能力。这种“开箱即用”的方式，大幅降低了开发门槛，也为生态伙伴的快速验证提供了基础。

这些努力正在转化为真实的用户体验。Arm 提供的数据显示：支付宝在 vivo新旗舰上的测试中，大语言模型预填充性能提升 40%，解码性能提升 25%；淘宝的商品识别速度提升 25%，显著改善购物场景的交互体验；Stability AI的音频生成速度提升三倍，实现了端侧实时生成；腾讯混元大模型的端侧推理延迟大幅降低，使交互更自然。

这些案例说明，SME2 与 Lumex CSS 平台并不是停留在实验室的概念，而是真正能落地到应用中、被用户感知的改进。

在端侧 AI 上，不同厂商正在走不同的路。高通通过 HexagonNPU 主打大模型推理，强调峰值算力；联发科利用 APU 与 GPU 结合，强化影像和游戏场景；苹果则凭借自研 GPU 和神经网络引擎，形成高度闭环的生态优势。

相比之下，Arm 的思路并非“追逐极致”，而是“构建普适层”。通过 SME2，让 CPU 拥有低延迟 AI 能力；通过 Mali GPU，把 AI 引入视觉体验；通过 Lumex CSS，提供可复用的计算基座。这种策略更像是在为整个生态打地基，让不同厂商都能在此之上构建差异化。

Arm 预计，到 2030 年，SME与 SME2技术将覆盖超过 30 亿台设备，新增超过100亿TOPS的算力。未来几年，CPU、GPU与NPU不再是竞争关系，而是各自找到最合适的角色，共同构成端侧 AI 的计算框架。而 Lumex CSS 平台，正是 Arm 期望用来推动产业走向 AI 普适化时代的底层基础。

上一篇：扬州“邗小哥”入选江苏省公共数据“跑起来”场景实践案例

下一篇：原创苹果iOS26性能评测：带来六大优化，体验完美

不仅仅是提升算力，Arm要把AI普及到每一台设备

相关内容

热门资讯