不仅仅是提升算力,Arm要把AI普及到每一台设备
创始人
2025-09-13 00:42:18
0

9月10日,Arm宣布推出全新Lumex计算子系统 (Compute Subsystem, CSS) 平台以及全新的 C1 系列CPU与Mali G1-Ultra GPU。不同于单点性能的堆叠,这次更新更像是一套系统性的答案:CPU 与 GPU的角色被重新定义,平台化整合和生态支持成为重点,目的直指一个方向——让 AI真正普及到每一台设备。

发布会后,Arm 终端事业部产品管理副总裁 James McNiven、Arm终端事业部产品管理总监Ronan Naughton分享了更多关于Lumex平台,全新C1系列CPU、G1系列GPU的更多技术细节。

Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU 及系统 IP,不仅能助力生态伙伴更快将 AI 设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。James McNiven表示,根据具体的实现方案和运行频率,第二代可伸缩矩阵扩展 (SME2) 在技术上可提供额外 2 到 6 TOPS 的算力。

乍看之下SME2提供的这些额外算力并不耀眼,毕竟当前很多厂商的NPU已经能够做到上百TOPS的算力,但 Arm 终端事业部产品管理副总裁 James McNiven 却多次强调它的重要性:“很多 AI 任务的瓶颈不在算力,而在内存带宽。SME2 的优势是直接在 CPU 内核执行,能即时访问缓存和系统内存。”

他进一步解释到,即使NPU拥有 100 TOPS算力,如果无法足够快速地提供数据,这种峰值性能也难以被充分利用。通过启用 SME2直接在 CPU核心上运行,能够以低延迟访问缓存和系统内存,因此在处理一些规模小、频繁触发且对延迟敏感的任务时极为高效。

这种设计意味着SME2并非要取代NPU,而是补足CPU在AI时代的新使命。ARM认为,不同的计算单元有不同的长处,各自针对不同类型的 AI 工作负载进行优化:NPU 擅长高吞吐量、大模型的推理任务,例如大语言模型 (LLM)、视觉 Transformer;GPU 更适合并行性强、与图形相关的 AI 任务,例如渲染加上 AI 图形优化升级;而搭载 SME2 的 CPU,则在需要与系统逻辑紧密集成的低延迟、持续在线的小模型任务中有卓越表现。

SME2的落点,正是 Arm全新推出的 C1 CPU系列。全新的C1系列为不同层级的设备提供分层设计:

C1-Ultra瞄准旗舰,单线程性能提升 25%,AI 性能提升 5 倍,适合大模型推理与高性能创作;C1-Premium 在性能与面积之间找到平衡,面向次旗舰市场;C1-Pro 强调持续性能,适合长时间的流式任务,如视频播放、语音交互;C1-Nano 则在小型化与能效上做到极致,为可穿戴设备提供可能。

正如Arm产品管理总监Ronan Naughton所说:“CPU永远是通用核心。AI会在 CPU、GPU、NPU 和云端之间异构运行,但CPU在系统层面始终是中心组件。”C1系列因此不仅是一次性能升级,更是 Arm把CPU定位为“普适AI执行层”的体现。

如果说CPU的重心在于普适与低延迟,那么 GPU的升级则让它承担起图形和AI的双重角色。

新一代 Mali G1-Ultra 在图形渲染方面集成了RTUv2光线追踪单元,性能相比前代翻倍,使移动端的游戏画质更接近桌面级体验;在 AI 运算上,它带来了最高 20% 的推理性能提升,并首次增加了FP16指令支持,专门面向低精度AI模型的运行效率。

Arm终端事业部产品管理总监McNiven 认为,这是 GPU 角色演进的关键一步:“我们看到 AI 正在重塑图形领域。未来 GPU 不仅是画质渲染器,更是智能视觉平台。”这正呼应了 Arm 推出的 神经图形(Neural Graphics) 概念:通过 AI 实现超分辨率、帧生成和降噪,让 GPU 成为连接感知与视觉体验的枢纽。

此前ARM带来的CPU与GPU的更新,并不是孤立的硬件模块,而被打包进了新的 Lumex CSS 平台。CSS(Compute Subsystem,计算子系统)的定位,是为合作伙伴提供一套可直接复用的底层架构。

它包括最新的C1 CPU、Mali GPU,以及支持最多 14 个处理单元的 C1-DSU(DynamIQ Shared Unit),并提供基于 3nm 工艺的物理实现路径。厂商可以选择直接采纳Arm的参考设计,也可以在此基础上增加自家的 NPU、ISP等模块,快速推出差异化的 SoC。

“Lumex CSS 不是提供完整芯片,而是专注于平台中计算密集的部分,其余部分仍需合作伙伴自行集成”。这种方案的好处当然是能够帮助合作伙伴缩短设计周期。同时McNiven 也强调,这种定位让 Arm 在为生态赋能的同时,也避免了与客户直接竞争成品芯片。

硬件能力如果不能被开发者轻松调用,便难以转化为用户价值。为此,Arm 推出了 KleidiAI 软件库,作为SME2与主流AI框架之间的桥梁。

KleidiAI已集成到PyTorchExecuTorch、GoogleLiteRT、阿里巴巴MNN、微软ONNX Runtime 等框架中。开发者几乎无需额外修改代码,就能直接获得 SME2 的加速能力。这种“开箱即用”的方式,大幅降低了开发门槛,也为生态伙伴的快速验证提供了基础。

这些努力正在转化为真实的用户体验。Arm 提供的数据显示:支付宝vivo新旗舰上的测试中,大语言模型预填充性能提升 40%,解码性能提升 25%;淘宝的商品识别速度提升 25%,显著改善购物场景的交互体验;Stability AI的音频生成速度提升三倍,实现了端侧实时生成;腾讯混元大模型的端侧推理延迟大幅降低,使交互更自然。

这些案例说明,SME2 与 Lumex CSS 平台并不是停留在实验室的概念,而是真正能落地到应用中、被用户感知的改进。

在端侧 AI 上,不同厂商正在走不同的路。高通通过 HexagonNPU 主打大模型推理,强调峰值算力;联发科利用 APU 与 GPU 结合,强化影像和游戏场景;苹果则凭借自研 GPU 和神经网络引擎,形成高度闭环的生态优势。

相比之下,Arm 的思路并非“追逐极致”,而是“构建普适层”。通过 SME2,让 CPU 拥有低延迟 AI 能力;通过 Mali GPU,把 AI 引入视觉体验;通过 Lumex CSS,提供可复用的计算基座。这种策略更像是在为整个生态打地基,让不同厂商都能在此之上构建差异化。

Arm 预计,到 2030 年,SME与 SME2技术将覆盖超过 30 亿台设备,新增超过100亿TOPS的算力。未来几年,CPU、GPU与NPU不再是竞争关系,而是各自找到最合适的角色,共同构成端侧 AI 的计算框架。而 Lumex CSS 平台,正是 Arm 期望用来推动产业走向 AI 普适化时代的底层基础。

相关内容

热门资讯

两年袭击中东7国,以色列下一个... 本轮巴以冲突爆发以来,从也门到卡塔尔,从黎巴嫩到伊朗,众多中东国家都遭遇过以色列的袭击。然而,以色列...
每日互动获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示每日互动(300766)新获得一项发明专利授权,专利名为“一种...
复旦大学张志安:AI内容传播治... 9月12日下午,以“规范AI内容 共筑清朗生态”为主题的外滩大会见解论坛在上海举办。论坛上,复旦大学...
卫星捕捉月球背巨型晶体塔影像,... 近日,一则关于月球背面的消息在网络上引发了轩然大波——有卫星拍摄到月球背面出现了一座巨型晶体塔。这个...
世界首个高原水电机组产研基地投... 世界首个高原水电机组产研基地——东方电气西藏林芝产研基地11日在西藏林芝正式建成投用,标志着我国在高...
消息称阿里和百度使用自研芯片训... 9月12日,据科技网站The Information报道,四位知情人士称,阿里巴巴、百度已开始采用内...
苹果、谷歌和Meta正试图完善... 来源:环球市场播报 数十年来,《星际迷航》等剧集和《银河系搭车客指南》等小说中都出现过虚构的通用翻...
上海四院:机器人辅助可视化技术... 近日,同济大学附属上海市第四人民医院神经外科成功实施 “机器人辅助接触性内镜引流导管全程可视化脑干血...
联合国安理会发表声明,强烈谴责... 当地时间9月12日,安理会就也门胡塞武装拘留联合国工作人员发表声明,强烈谴责胡塞武装自2025年8月...
蓝色光标:用AI新范式构建技术... 证券之星消息,蓝色光标(300058)09月12日在投资者关系平台上答复投资者关心的问题。 投资者:...