从 2023 年开始,三年时间,中国科技产业开启了所谓的 " 大模型狂飙时代 "。
自 ChatGPT 引爆全球 AI 热潮以来,中国科技行业迅速陷入了一场前所未有的集体焦虑。从互联网巨头到传统制造业,从手机厂商到汽车新势力,都试图与 " 大模型 " 或 " 生成式 AI" 概念建立关联,参数规模从千亿跃升至万亿,战略合作的签署仪式频繁见报。
DeepSeek 的爆火恰好再次印证了这一观点,在行业落地方向尚未明确时,各行各业均选择了 " 先上车后补票 " 的方式乘上这趟 " 快车 "。
不可否认的是,AI 是现今科技产业最重要的发展方向之一,但在这场集体性的非理性繁荣中,冷静思考变成了一件奢侈的事,毕竟没有人愿意被贴上 " 错过 AI 时代 " 的标签,哪怕这种焦虑的来源本身就是对技术变革的过度反应。
今年春节开始,OpenClaw 又掀起了一阵 AI 热潮,只是在短暂的繁荣后,热度又开始悄然退下。这是每一个新技术的终局,同样也是对技术浮躁、焦虑的代价。如何让 AI 理解世界、理解用户、理解任务,这些基础问题仍没有人做出回答。
这是一个需要长期投入、难以短期变现、无法靠发布会解决的问题。正因如此,大多数企业选择回避,转而将资源投入到更具传播效应的 " 追热点 " 策略中。
vivo 是少数选择正面回答这个问题的企业。
2026 年 3 月,博鳌亚洲论坛。vivo 总裁、首席运营官胡柏山在演讲中明确表示:" 我们把核心资源聚焦在端侧 AI 和产业链协同,思考用户在 AI 时代真正需要什么样的体验。"
这番表述可以视为一家成熟企业对技术趋势的理性判断。
如果我们仔细审视 vivo 过去五年的技术布局和战略选择,会发现这家企业正在下一盘远比 " 发布大模型 " 更为深远的大棋:感知能力赛道。
感知能力,是 vivo 对 "AI 时代竞争核心 " 这个问题的回答。
感知能力为什么是 AI 时代的竞争核心?
" 在未来 AI 时代,算力、模型能力不具备差异化 "。胡柏山的判断,也是 vivo 感知战略的决策基础。
在 vivo 看来,随着芯片工艺持续进步和模型架构不断优化,算力和模型能力将会供应链化,每个手机厂商都有更多选择权,不再构成竞争壁垒,而这一点也正在被行业验证。
2024 年至 2026 年间,联发科、高通、苹果、三星等主流芯片厂商的旗舰 SoC 在 AI 算力上持续快速提升。与此同时,高通骁龙系列、苹果 A 系列的自研神经网络引擎也在同步演进。这意味着,端侧 AI 的算力基础正在快速走向同质化。
在模型层面,开源社区的贡献同样不可忽视。Meta 的 Llama 系列、Google 的 Gemma 系列、阿里云的 Qwen 系列等开源大模型,已经能够提供接近闭源模型的性能表现,且授权费用极低。对于手机厂商而言,基于开源模型进行微调,正在成为一条可行的技术路径。
一个逻辑是,当算力和模型都不再是稀缺资源,企业就必须寻找新的差异化方向。vivo 给出的答案是:以影像为基础,构建 AI 落地物理世界的视觉感知中枢。
今年开始,vivo 内部就已经对感知赛道进行立项,核心是把视觉、听觉、触觉等感知,通过传感器加以感知大模型,转化成 AI 想要得到的物理世界的信息。
所谓 " 数字世界连接物理世界 ",指的便是 AI 理解、分析、处理物理世界信息的能力。一张图片中的光影关系、一段视频里的空间结构、用户脸上的情绪变化。这些物理世界的感知信息,需要被 AI" 翻译 " 成可理解、可分析、可决策的数字信号。
胡柏山的看法是:真正的差异化,在于谁数字世界连接物理世界的能力越强,谁就越 ' 聪明 '。而这恰巧是 vivo 的强项所在,过去十年,vivo 在影像上做了巨大投入,除了让照片变得更好看,同样也是在建立一套完整的物理世界感知系统。
这套感知系统的技术架构,包含三层架构:
第一层是光学系统——镜头光学设计、镀膜工艺、光学防抖等技术,决定了 " 看得到 " 的边界。vivo 与蔡司的深度合作,正是这一层的战略投资,双方持续在光学设计、镀膜工艺、色彩科学等领域深化合作。
第二层是成像处理—— ISP 算法、HDR 融合、多帧降噪、色彩科学等技术,决定了 " 看得清 " 的能力。vivo 自研的 V3 影像芯片,专门针对这一层进行了算力优化。V3 采用了先进的 6nm 制程工艺,AI 算力相比前代提升 40%,能够支持 4K 级别的实时画面增强。
第三层是感知理解——场景识别、语义分割、空间建模、情绪感知等 AI 能力,决定了 " 看得懂 " 的深度。这是 vivo 感知战略的核心差异化所在。在这一层,vivo 的蓝心大模型矩阵发挥着关键作用。蓝心大模型是 vivo 自主研发的多模态 AI 模型系列,能够对图像和视频内容进行深度理解,识别物体、场景、关系、情绪等多维信息。
三层能力的叠加,使 vivo 的手机成为一台真正意义上的 " 物理世界感知终端 "。当用户举起手机拍照时,不仅在记录一个瞬间,更是在让 AI" 观察 " 和 " 理解 " 当前的物理场景。
这种感知能力的长期价值,远超一款手机的功能升级。vivo 认为,当未来 AI 真正深入到千行百业时,具备强大感知能力的终端将成为最重要的数据入口,这也意味着感知能力赛道的竞争,已经悄然开始。(雷峰网)
vivo 的 Agent Phone 蓝图
在博鳌亚洲论坛,胡柏山指出—— Smart Phone 将进化成 Agent Phone。
什么是 Agent Phone?用 vivo 的理解,这是一种能够主动理解用户需求、自动完成任务、智能调度服务的下一代智能手机。
这与 " 智能手机 " 有着本质区别。智能手机的核心是 " 工具 ":人使用手机来处理任务、获取信息,手机始终处于 " 被动响应 " 的状态。但 Agent Phone 的核心是 " 伙伴 ":手机主动感知环境、理解需求、预判行动,成为真正懂你的智能代理。
这个转变的关键驱动力,依然是感知能力。
当前智能手机的交互逻辑,本质上是 " 输入 - 反馈 " 模式:用户发出指令,手机执行并返回结果。整条交互链路是离散的、事件驱动的。但 Agent Phone 的交互逻辑将是 " 感知 - 理解 - 行动 ":手机持续感知环境和用户状态,在后台构建对当前场景的深度理解,然后主动提供最合适的响应和服务。
vivo 对于 Agent Phone 有着超前的理解,但距离落地仍有许多现实问题需要解决。
首先是意图理解,手机需要从用户的模糊表述甚至无表述行为中,准确推断用户的真实意图。这要求端侧 AI 具备强大的上下文理解能力和长程记忆能力,能够综合用户的历史行为、当前位置、时间状态、日程安排等多维信息进行综合判断。
其次是任务规划能力,当确认用户意图后,手机需要自动拆解任务步骤、调用相关 App 和数据、在后台完成复杂操作流程,并在必要时向用户确认关键决策。这需要手机具备跨 App、跨服务的任务编排能力。
最后是隐私边界问题,在 vivo 看来这是不可逾越的底座。主动服务意味着手机需要持续感知和分析用户状态,Agent Phone 需要在隐私保护和服务能力之间找到平衡点,做到既能提供足够智能的服务,又要确保用户对数据的控制权。
vivo 的解法是将感知和推理过程尽可能保留在端侧。胡柏山透露,vivo 正在与芯片厂商、算法公司、学术机构深度合作,共同定义面向端侧 AI 的新一代算力架构。" 单靠手机厂商自己做不了端侧 AI,必须拉着产业链一起做。"
与 Arm 建立联合实验室,与联发科从底层硬件到软件的多层面联合研发 , 包括性能、AI、影像、游戏、通讯还有多媒体等各个领域;而在学术层面,vivo 与清华大学、北京大学、上海交通大学等高校建立了深度合作关系,在端侧 AI 的基础研究上持续投入。
Agent Phone 的底层支撑,是端侧 AI 的意图理解能力和感知系统对环境的实时建模。两者的结合,使手机能够在本地完成对用户需求的理解、规划和执行,既保证了响应速度,又保护了用户隐私。
vivo 在博鳌论坛上宣布,搭载相机 Agent 能力的新一代旗舰机型 X300 Ultra 与 X300s 即将发布。除了专业的影像能力进一步提升,从某种程度来说,这也是 Agent Phone 的阶段性成果展示。
但胡柏山明确表示,Agent Phone 只是起点,不是终点。
"X300 Ultra 会展示 Agent Phone 的核心能力,但它还不是终极形态。" 他在专访中透露," 真正的 Agent Phone 需要感知能力、端侧 AI、IoT 生态的完整配合,这需要一个更长的建设周期。"
在 vivo 的战略蓝图里,感知能力的价值远不止于手机。
用感知,成为 IoT 生态的 " 眼睛 "
在 vivo 的生态蓝图里,手机不是终点,而是起点。用胡柏山的话:" 以影像 +AI 构建的视觉感知中枢,可以升级为 IoT 生态的视觉感知中枢。"
在 vivo 看来,IoT 行业有着难以解决的问题,单个智能化设备的感知过于片面,最终导致这些设备都缺乏一个共同的 " 感知中枢 " 来整合多维信息、构建统一理解。vivo 认为,手机可以承担这个角色。
当手机具备强大的视觉感知能力,它可以成为 IoT 生态的 " 眼睛 " ——通过与各类 IoT 设备的互联互通,汇聚来自不同维度、不同位置、不同视角的感知信息,形成对用户生活场景的完整理解。
" 你的手机看到你在客厅,它就知道你的电视、音箱、空调应该怎么调整。" 胡柏山举例道," 但这只是第一步。未来,手机的感知能力会延伸到更多品类,让更多设备 ' 看见 ' 这个世界。"
这种 " 感知延伸 " 的战略,需要新的产品形态作为载体。
去年,vivo 成立了机器人 Lab,其成员来自无人机、计算机视觉、自动控制、机械工程等多个领域,研究包括室内环境的三维重建、动态障碍物的识别与规避、人体姿态的精细感知等核心技术。
而这个机器人实验室的首要目标并非打造一款面向 C 端的消费级机器人,而是专注于感知能力的技术突破,
"vivo 做机器人,核心还是围绕感知能力。" 胡柏山表示,手机积累的影像技术、AI 算法、人机交互理解,都会成为机器人的基础。但更重要的是,机器人会成为 vivo 感知生态的延伸,让 vivo 在更多场景、更大范围内建立感知优势。
这种感知能力的生态外溢,最终将超出消费电子的边界。
" 感知能力的价值,在于它能为多少行业创造多少价值。" 胡柏山说到," 这是 vivo 作为一家中国科技企业,应该承担的产业责任。"
这种产业责任的承担,需要长期投入和战略定力作为支撑,而 vivo 的感知战略,本质上就是一场关于 " 长期主义 " 的实践。
这条路线的代价是沉重的。感知能力的构建需要五年、十年的持续投入,短期内难以看到显著回报。当竞争对手靠 " 追热点 " 收割流量和资本时,vivo 必须承受战略定力带来的寂寞。当友商不断发布 " 震撼业界 " 的新产品时,vivo 只能埋头做技术攻关。
但 vivo 选择相信:时间会犒赏那些愿意下笨功夫的企业。在博鳌论坛上,胡柏山引用了老子《道德经》中的一句话:" 企者不立,跨者不行 ",vivo 的每一步,都走得扎实。
在行业普遍焦虑的时代,保持战略定力本身就是一种稀缺能力。当 AI 时代真正进入深水区,vivo 在感知能力上的长期积累,将成为它最坚实的壁垒。
这是 vivo 的押注,也是它的底牌。(雷峰网)