关于ZAKER 合作
雷科技 刚刚

对话 Arm 终端副总裁:Lumex CSS 如何引领端侧 AI 计算革新?

10 月 30 日,Arm Unlocked 2025 AI 技术峰会终于来到了深圳。作为 Arm 与国内科技公司、芯片合作伙伴、行业专家以及开发者们的交流盛会,此次大会设有软件和产品展示区,同时也设置了消费电子、智能汽车、边缘 AI、基础设施和开发者等多个专场论坛,聚焦 AI 计算在这些关键领域的前沿技术创新与产业落地实践。

Arm 架构作为目前计算领域运用最广泛的架构之一,可以说已然渗透到各行各业,特别是 Arm 架构在能效和 AI 性能层面的优势,使其成为 AI 时代各类设备的最佳选择之一,因此,此次大会也是吸引了众多关注,雷科技也应邀前往深圳会场,给大家带回一手报道。

Arm Lumex CSS 来了,面向 AI 时代而生

在 Arm Unlocked 深圳现场,Arm 终端事业部产品管理副总裁 James McNiven 详细介绍了 Arm Lumex CSS 平台的架构与性能提升。该平台是 Arm 面向旗舰智能手机和下一代个人计算设备推出的计算子系统平台,采用 "AI 优先 "(AI-first)的全新设计理念。

Arm Lumex CSS 基于最新的 Arm v9.3-A 架构打造,这也使其与前代相比有众多的升级,比如全新的 C1 系列 CPU 集群和全新的 SME2 矩阵扩展指令集,这也是 Arm 首次将专用矩阵运算加速单元直接集成到 CPU 核心。

让我们先来聊聊 C1 系列 CPU 集群。作为 Arm Lumex CSS 的核心,C1 CPU 集群采用 3nm 制程工艺打造,IPC 再次实现了双位数百分比的性能提升。同时,该平台还为开发者准备了更多的 CPU 产品矩阵,让开发者可以根据需求更细致地定制 CPU 设计,深度适配不同场景、设备的需求。

其中,作为旗舰级 CPU 的 Arm C1-Ultra 超大核相比前代 Cortex-X925,在单线程峰值性能上提升高达 25%,拥有了更强的处理能力。而主打高效性能平衡的 Arm C1-Pro 大核相较上一代 Cortex-A725,在相同主频下持续性能提升 16% 的,并在实现相同性能输出的情况下,能效提升幅度达到 12%。

除此之外,Arm 这次也介绍了两款针对不同细分市场的新内核,其中面向次旗舰手机设备的 Arm C1-Premium 比 Arm C1-Ultra 在性能接近的情况下面积缩小约 35%,显著降低芯片成本。面向穿戴设备的 Arm C1-Nano,则完全是把能效最大化作为首要目标,让迷你设备也能拥有足够的性能。

而且,Arm Lumex CSS 还拥有全新的 Mali G1-Ultra GPU,除了在图形和 AI 推理等方面得到双位数百分比的性能提升外,还集成了第二代光线追踪技术 ( RTUv2 ) ,使移动端 GPU 的光线追踪性能相比上代提升两倍。

可以说,单看硬件性能,Arm Lumex CSS 就已经相当不错了,而这一代平台的最大升级亮点,恰恰在于硬件背后的矩阵扩展技术,也就是我们前面提到过的 SME2。

得益于 SME2,CPU 在 AI 推理方面实现了至多 5 倍的性能提升,同时在相同功耗下达到 3 倍的能效优化。据 Arm 公布的数据,通过 SME2 内置加速,语音识别等延迟敏感任务的响应速度大幅提高,在测试中,语音类工作负载延迟降低了 4.7 倍,音频生成速度提升 2.8 倍,使得 AI 翻译、AI 会议纪要等方面的体验得到显著提升。

当然,SME2 所带来的提升并不止于此,其更大的意义在于让 CPU 也可以承担 AI 推理的任务,如此一来即使移动平台本身没有配备高性能 NPU,也能够得到足够的 AI 性能来运行 AI 应用或服务。

SME2 依托 Arm CPU 这一通用架构,使开发者无需针对各式 NPU 做额外适配或重写算法,大多数移动设备上都能直接运行统一的 CPU 端 AI 计算。这一点极大降低了端侧 AI 应用的开发门槛和推广成本。简言之,SME2 让通用计算平台承担 AI 推理,为开发者提供了一个 " 一次开发、广泛适用 " 的便利途径。

可以说,Arm Lumex CSS 平台成功实现了性能、能效与灵活性的三管齐下。在相同功耗预算下,该平台较前代实现了五倍 AI 性能提升且显著降低能耗,让开发者能够在不牺牲电池续航的前提下部署更大更复杂的模型。

同时,Arm Lumex CSS 也能为端侧设备提供了充分的算力盈余去支撑实时翻译、智能助手、本地大模型推理等新兴 AI 应用。在雷科技看来,Arm Lumex CSS 就是为 AI 时代打造的全新平台,通过系统级协同设计和软硬件结合,Arm 将让 AI 计算变得无处不在且更加高效普及。

直面 Arm 终端副总裁:Lumex 还有哪些亮点?

在主题演讲及会议结束后,雷科技也得到了采访 Arm 终端事业部产品管理副总裁 James McNiven 的机会,并且提问了一个雷科技读者非常关注的问题:

"本次发布的第二代光线追踪单元实现了两倍的性能提升。您如何看待这一改进对移动游戏生态的影响?此外,是否有可能通过人工智能技术,使原本不支持光线追踪效果的游戏也能够呈现出类似的视觉体验?"

ames McNiven 回答称,第二代光线追踪单元的核心价值在于大幅扩展了游戏开发者在光照效果上的创作空间。过去由于性能所限,手游中的光线追踪只能应用于局部场景,而随着性能翻番,开发者有望逐步实现全场景的实时光线追踪,带来更加全面、自然的光影呈现。

他举例说,在 Unreal Engine 5 的内部测试场景中,去年采用传统光追时渲染帧率仅约 26~27FPS,而在尝试将光追计算改为软件实现后,虽然理论性能提高,但画面质量并未同步改善。而全新的 Mali G1-Ultra 在同一场景下帧率提升了约 40%,并且光照效果更加真实、细腻。

这证明了硬件级光追在性能和精确度上具有明显优势,能够实现 " 更高帧率下的更高画质 "。随着移动 GPU 光追能力的攀升,手游中的光影表现有望接近主机游戏的水准,这将极大提升高端玩家对移动平台的认可度。

至于 " 能否通过 AI 让不支持光追的游戏呈现类似视觉效果 " 的提问,McNiven 表示这是 " 可以期待 " 的方向。他解释道,借助神经网络等 AI 技术,有机会为游戏图形渲染带来更多创新。例如,通过训练特定模型,AI 可以在传统光栅化画面上模拟出更高级的光影与细节效果,弥补原始画面的不足。

当然,具体效果取决于所使用的模型,但总体可以预见:未来 AI 驱动的图形渲染将在光照表现上取得巨大突破。不过他也坦言,就当前而言,硬件原生光追在精确度和画质上仍有不可替代的优势,AI 渲染暂时是补充而非完全替代。

同时,作为一名游戏爱好者,McNiven 表示他本人对神经图形技术充满期待,希望看到它在移动平台上释放更大的潜能与创意。

除此之外,James McNiven 也回答了不少关于 SME2 的提问,表示 SME2 将矩阵加速能力直接集成进 CPU,不仅大幅降低了延迟,更具备广泛的适配性和部署灵活性,开发者无需为不同设备重复适配,有助于 AI 应用快速落地。

James McNiven 还指出 Arm 的 C1 架构在处理快速迭代的 AI 模型时,展现出强大的通用性和计算弹性,也进一步凸显 CPU 在异构计算体系中的重要角色。同时,针对未来端侧 AI 的 " 杀手级 " 应用潜力,Arm 认为游戏和个性化助理等场景将成为推动消费者换机的核心动力,而 Lumex CSS 已经为此做好准备。

以腾讯和 vivo 等合作案例为例,SME2 已在 AI NPC、语音交互、本地推荐等功能中展现出显著成效。James McNiven 表示,Arm 正通过软硬件协同和系统级优化,为用户带来更沉浸、更智能的使用体验,同时也加速 AI 从云端走向终端的变革。

在雷科技看来,随着 AI 逐渐成为智能终端的核心卖点,用户对于设备性能的关注点也从传统的处理速度转向了 AI 能力的强弱,而 Arm 正是这个浪潮背后最具话语权的推手。