在国际电信联盟成立 160 周年之际,中国通信学会主办的 "2025 世界电信与信息社会日系列活动 " 于 5 月 16 日 -17 日期间在江西南昌召开。今日,以 "AI 大模型赋能千行百业 " 为主题的系列活动之一,"AI 与行业大模型应用专题研讨 " 召开。此次专题研讨聚焦 " 运营商 AI 与行业大模型布局 " 和 " 行业大模型实践与应用 " 两大板块,汇聚政府机构、科研院所及行业领军企业,共同解读了全球 AI 趋势与治理方向,探讨了 AI 大模型的技术前沿与行业实践。
以下是演讲内容全文:
各位嘉宾大家下午好!我是高通公司姜波。非常荣幸能够在国际电信联盟成立 160 周年之际,与大家相聚在南昌,共同探讨终端侧 AI 推理创新如何推动智能产业迎来全新发展机遇,并加速各行业对 AI 的规模化集成及用户体验的重塑。
今年年初,DeepSeek 的推出引发了对 AI 模型训练方式的颠覆变革和重新评估,验证了 AI 即将从大规模训练向大规模推理转变的趋势,这将形成全新的终端侧推理计算的创新和升级周期。虽然模型训练仍将在云端进行,但模型推理将向终端侧转移。
AI 模型训练成本的降低与开源合作相结合,使得更多开发者和组织能够开发高质量模型,并且小模型正逐渐接近前沿大模型的质量。尽管有人认为模型规模缩小会导致质量下降,但实际上,2024 年来推出的众多先进的 AI 小模型已经具有卓越性能,能够达到甚至超越一年前推出的仅能在云端运行的更大模型。许多主流模型系列,如 DeepSeek R1、Meta Llama、IBM Granite 和 Mistral Ministral,均已推出小模型版本,并在特定任务的性能和基准测试中表现出色。
蒸馏技术是开发高效小模型的关键,它能够在保持准确性的同时实现知识的转移。这一技术的应用推动了小型基础模型的激增,其中包括许多针对特定任务优化的模型。以 DeepSeek 为例,在其发布的一周内,就出现了多种新的蒸馏模型,如通义千问和 Llama 蒸馏模型。经过蒸馏的 Llama 模型性能显著提升,而 DeepSeek 的 Qwen-7B 蒸馏模型的性能已与去年最先进的 GPT-4 云端模型相当。
根据 Epoch AI 的数据,2024 年发布的大规模 AI 模型中,超过 75% 的模型参数在千亿规模以下。量化、压缩和剪枝等技术有助于缩小模型规模,量化能降低功耗并在不明显影响准确性的情况下加速运算,剪枝则消除不必要的参数。将大型基础模型缩减为更小、更高效的版本,不仅能实现更快的推理速度、更少的内存占用和更低的功耗,同时可以保持较高的性能水平,从而使此类模型适合在智能手机、PC 和汽车等终端上部署。
得益于高质量小模型数量的持续增加,如今,边缘及终端侧 AI 开发者在开发应用和 AI 智能体方面有着非常多样化的模型选择。从全球范围来看,我们既有 Llama、Mistral、Phi 这样的开源模型,还有百川、Gemini Nano、通义千问等闭源模型,这当中有一些模型也正在不断拥抱开源社区。此外,不同地区也在积极发展各自的 AI 模型,推出了各具特色的新型模型。与此同时,传统的计算机视觉和物体检测等领域所使用的模型,在特定应用场景下依然发挥着不可替代的作用。
随着当前模型的发展,我们观察到不同设备,包括手机、汽车、PC、XR 和工业物联网设备等,在支持的模型参数规模方面展现出不同的能力。结合 AI 模型自身质量的不断提升,终端侧 AI 将具备更丰富的功能,如支持更长的上下文、提供个性化体验、实现多模态交互和处理并发模型等,这些都将极大地推动终端侧 AI 应用的创新与繁荣。
根据预测,2025 年中国新一代 AI 手机市场出货量将达到 1.18 亿台,占整个市场的 40.7%。 [ 1 ] 同时, 2025 年中国 AI PC 市场出货占比预计将从 2024 年的 13% 大幅上升至 37%。 [ 2 ]
作为终端侧 AI 的领导者,高通在人工智能领域有着超过 15 年的投入,拥有行业领先硬件和软件解决方案覆盖广泛终端,并且拥有跨 NPU、CPU 和 GPU 的卓越异构计算能力、领先的软件优化、以及能效。此外,我们还在全球范围内拥有领先的终端侧布局和高达数十亿的用户设备数量,覆盖智能手机、PC、汽车、XR、边缘网络设备等等。同时,我们也与众多生态合作伙伴共同推动 AI 技术的创新和应用。
2024 年,高通与腾讯混元合作,基于骁龙 8 至尊版移动平台,共同推动腾讯混元大模型 7B 和 3B 版本的终端侧部署。这有助于腾讯混元大模型为广泛的业务场景提供技术支持,通过利用终端侧 AI 加速产品创新,并有效降低运营成本。
在硬件方面,高通长期致力于开发定制 CPU、NPU、GPU 和低功耗子系统,同时拥有封装技术和热设计的技术专长,这构成了我们行业领先的系统级芯片(SoC)产品的基础。通过异构计算系统,高通帮助开发者通过上层软件调用硬件核心组件进行 AI 加速,包括 CPU、GPU、NPU 和高通传感器中枢。其中,Oryon CPU 面向即时性要求高的任务,Adreno GPU 擅长图像和视频处理,Hexagon NPU 适用于持续和泛在型任务,如计算摄影和大模型应用。而高通传感器中枢则针对那些对功耗敏感且需要始终保持在线的应用场景。
在软件工具支持方面,我们推出了高通 AI 软件栈,可以让模型在终端上完成端到端的部署和优化工作。高通 AI 软件栈支持所有开发者常用的 AI 框架、runtime、开发工具和操作系统。例如,我们支持 ONNX、TensorFlow、PyTorch 等主流 AI 框架,以及 ONNX Runtime、Direct ML 和 TFLite 等常用 runtime,我们也给开发者提供了高通自己开发的 runtime ——高通 AI 引擎 Direct,以供开发者调用前面介绍的各种硬件模块,对 AI 用例进行加速。此外,为了更好地支持开发者,我们去年推出了高通 AI Hub,它能够帮助开发者选择相应平台和开发模型、编写应用,最后在不同类型的移动终端上进行部署。
除了高通 AI 软件栈和 AI Hub,我们还推出了高通智能体 AI 规划器。高通智能体 AI 规划器作为高通 AI 软件栈的重要组成部分,位于应用和 AI 框架及 runtime 之间,为终端侧所有的 AI 功能提供所需的协调规划,是赋能下一代智能体 AI 体验的关键所在。
简而言之,这是一个用于意图理解、意图分发和域服务调动的端到端解决方案,涵盖了从最初的自然语言理解阶段,包括自动语音识别(ASR)和文本到语音转换(TTS)模块,到通过端侧智能体进行的意图理解和任务编排过程。在任务编排阶段,规划器能够调用端侧的各种工具,并利用端侧的个性化知识图谱和本地数据,从而让任务规划更为精确和高效。此外,在完成任务规划之后,规划器还支持多种后续的域服务,如音乐播放、天气查询、导航和订餐等功能。
随着 AI 在终端侧无处不在地运行,以应用为中心的体验正在改变。通过自然语言、图像、视频与手势的交互方式,AI 智能体能够简化技术使用方法,预测用户需求,并在终端和应用内主动执行复杂的工作流程、进行决策和管理任务。也就是说,AI 正在成为新的 UI(用户界面),用户将不再需要打开特定的应用程序, AI 智能体将作为新的交互方式服务于用户的所有计算终端。这不仅将改变单个应用,还将影响零售、餐饮等行业的客户体验逻辑,成为变革商业版图的新生力量。
今年,高通公司迎来成立 40 周年、深耕中国市场 30 年的重要里程碑。过去 30 年来,高通一直与中国的移动生态系统企业保持紧密合作。目前,我们正在携手更广泛的合作伙伴,充分利用端侧 AI 在性能、效率、响应速度和隐私保护方面的优势,共同把握产业发展机遇。
在智能手机方面,包括小米、荣耀、OPPO、vivo 在内的厂商均已发布了搭载骁龙 8 至尊版移动平台的旗舰手机产品,支持丰富的生成式 AI 用例。在 PC 方面,预计到 2026 年将有超过 100 款搭载骁龙 X 系列计算平台的 PC 发布或正在开发中,覆盖华硕、宏碁、戴尔、HP、联想和荣耀等领先厂商。同时,我们持续与腾讯会议、有道、爱奇艺、字节跳动等 ISV 合作伙伴协作,为开发者提供工具和支持,把握 AI PC 的行业发展新机遇。在汽车领域,高通过去在多个场合展示了基于骁龙数字底盘解决方案运行的汽车端大模型和生成式 AI 用例。如今,理想、小鹏等中国车厂已基于高通第四代骁龙座舱平台发布了其车端的大模型功能。
站在新的起点上,高通将持续加强在可扩展硬件和软件方面的投入,并通过与模型厂商的紧密合作,赋能开发者在终端侧加速采用 AI 智能体和应用,让 AI 应用更加触手可及,推动 AI 技术在千行百业的应用。
[ 1 ] IDC:2025 年中国智能手机市场十大洞察
[ 2 ] Canalys:预计大中华区 AI PC 渗透率 2024 年达 13%,2025 年达 37%