和 vivo 总裁聊了聊，发现我对影像的理解太浅了。

这两天差评君受 vivo 邀请来到了位于海南的博鳌亚洲论坛年会。

说起来我们还是第一次来参加这种大型的国际对话活动，差友们把排面打在公屏上。

关于博鳌亚洲论坛，给没听过的差友介绍一下，这其实是一个国际组织来的，他们每年都会在博鳌这个小镇举办一次年会——亚洲各国的政商大佬们和专家们聚在这里，坐着一起聊经济、谈合作，商量怎么把亚洲发展得更好。

所以每年面对不同的全球性挑战，以及科技发展趋势，博鳌亚洲论坛都会有一些新的议题。

那对于我们科技媒体来说，当然还是更加关心年会上的科技议题了。

在这方面，vivo 每年都会在博鳌论坛上给大家带来创新产品，分享科技战略，比如去年他们就展示了 MR 头显、6G 等领域的新技术，并宣布进军机器人赛道。

而今年 vivo 又展示了新的战略规划，其中让我印象最深刻的还是 vivo 总裁胡柏山在会上的讲话 :

AI 想要真正从虚拟世界走进现实，就必须要能够做到主动感知和理解我们所在的这个世界，而想要建立起这种能看懂物理世界的感知能力，影像是一切的基石。

差评君翻译下来，就是别管是能打醉拳、翻跟斗的机器人，还是 OpenClaw 引发的养虾热潮，AI 跟世界交互才刚刚开始。

" 不儿，这真的是因为蓝厂在影像上已经建立起优势，才这么说的吗？"

带着这个疑问，差评君在会后的媒体群访环节跟胡柏山聊了聊，总算是把这话题给聊透了，那咱们今天就顺着他的话，唠唠 vivo 的 " 影像 + AI " 大棋。

现场大家问了胡柏山很多问题，但总结下来，最核心的就两点：

第一，在咱们消费者这里，率先实现 AI 落地的肯定是手机，而手机的未来，是从现在的 Smart Phone（智能手机）变成 Agent Phone（智能体手机）。

虽然现在各种 AI 硬件层出不穷，什么 AI 眼镜、AI 录音笔等等，但没有哪个设备能比手机更加普及，并且离人更近——你想想，手机 24 小时不离身，还能联动周边的一系列生态，天生就是做 AI 落地的载体。

当然，目前手机的处理器算力和内存带宽来说，想要跑大参数的模型还是有瓶颈的，所以 vivo 选择聚焦端侧 AI，先让 AI 在手机上流畅地跑起来，用端侧 Agent 解决用户的场景痛点，把体验值拉升起来。

说到这点，差评君也在现场问了胡柏山对于之前 AI 手机的隐私权限风险怎么看，他的回答也蛮直接了当的，就是用户的隐私权限和数据应该归用户自己来管理，所以手机必须得做好端侧 AI，关键数据都跑在本地，大程度降低在云端泄露的风险。

还有对于手机 AI 如何调用第三方应用能力的问题，他表示还是需要通过像 MCP 这种统一的协议来做，在标准的接口范围内，把事情做的有边界。

第二，即便现在 Al 是行业的 " 流量密码 "，但是对于 vivo 来说，影像依旧是不变主角。Al 和影像不是谁替代谁，而是要融合起来，一起驱动智能生态的。

有点迷？那先来听听胡柏山透出的猛料，比如：

MR 头显的下一代要开始商业化；他们要把感知这条赛道做起来，把视觉和听觉这些感知能力整合到一起；以及 vivo 已经明确做聚焦室内场景的家用机器人了……等等等等，每一句话都透露了 vivo 接下来的大动作是围绕 " 影像 + AI " 的布局来的。

不管是演讲还是群访，蓝厂都在反复强调一个逻辑就是：没有影像，AI 在物理世界里就是 " 睁眼瞎 "。

怎么理解这句话呢？我给大家拆解一下。

首先，大家应该都知道，AI 其实是没有感知能力的，它懂语言，但它看不懂我们的世界。

对于大多数 AI 来说，你扔给它的照片本质上只是符号和统计规律，而告诉它这些信息都代表了什么的，在过去是成千上万的人工标注员，他们通过手工框选贴标签，告诉 AI 图片中的水杯、桌子、车辆、宠物猫狗长什么样。

不过这两年不一样了，AI 自动化标注起来了，那些低端、机械化的标注活儿，AI 自己就能搞定，只剩一些复杂的高端标注还需要人来做。行业趋势也从 " 靠人力堆数据 " 变成了 " AI + 精细化人工 "。

于是，现在你扔给 AI 一张图片，它基本可以给你描述清楚当中都有哪些东西，但是这并不代表它看见的东西，就是你所看见的。

因为它看到的其实是一张贴满了标签的二维平面，而不是你所认知的物理空间。

打个比方，你看到一瓶放在桌面上的水，你脑子里会知道它有重量，它要放在桌子上，它是否会滚动，它掉下来会是什么个运动状态——你之所以会这么想，并不是因为你识别出了这瓶水和桌子，而是因为你是知道这个物理世界是怎么运行的。

但是 AI 不会这样，它只会知道水瓶和桌子，以及水瓶应该是在桌子的上面而不是下面。

因为如此，去年 " AI 教母 " 李飞飞提出了空间智能这个概念，用 " 世界模型 " 让 AI 看懂物理世界，理解物体之间的空间关系、物理约束以及运动规律等等。

从目标来说，vivo 跟李飞飞所追求的是一样的，都是最终实现 AI 对于物理世界的感知——只不过 vivo 打算走一条更符合自身情况的路子，用影像来当 AI 在物理世界的感知器官。

为啥是影像呢？

咱们从数据采集方式来看，录音只有声音；传感器只有距离、亮度等信息，没有语义。只有影像能够把前面这两项给囊括进来，把三维的现实世界，给你变成 AI 能读懂的结构化信息。

而且过去这么多年手机厂商影像的飞速进步，带来了海量的技术和场景数据积淀，比如对于光线的计算、前后景分割、人像分割、拍摄视角识别、场景识别等等积累，对于 AI 感知物理世界都有所帮助——

因为之前有研究表明，拍摄角度不同、光线差异、或者是有人从镜头前方走过等情况，都会降低 AI 的识别准确度。

就像 vivo X300 Ultra 和 X300s 这回的影像 Agent，之所以能自动推荐拍摄参数，核心就是手机影像能精准识别拍摄对象、光线条件，再结合 AI 算法，帮我们省去手动调节的麻烦。

另外，我还刷到过有文章说，AI 之所以无法很好地理解物理世界，有一个很大的原因是真实数据不足所造成的训练缺口。

因为过去传统的方式是，用实验室捕捉到的数据来训练 AI，这些地方的灯光固定、实验者会穿特定着装，跟现实场景相去甚远。

而商业级和通用的影像训练资料很多是非标数据，也就是没有打上力学标签，会导致 AI 无法准确识别某个动作的力度。

从这点来说，手机影像的优势在于它更贴近普通人的日常生活，数据基本就是我们每天随手拍的场景。

比如清晨的阳光、路边的小吃、家里的宠物等等，你拍越多真实的日常场景喂给 AI ，AI 对于我们普通人的生活就理解得越精细，甚至可以在手机上复制一个你的数字生命。

而且由于 AI 是跑在端侧的，你也不用担心云端的隐私泄露问题。

而对于未来影像和 AI 的结合，胡柏山认为影像应该是具备多模态感知能力的智能感官，他原话是这么说的：

" 它不仅要识别 " 这是一只猫 "，更要理解：猫在沙发上跳跃的可能轨迹、下一秒可能打翻水杯的关联、以及它此刻慵懒的情绪。"

在 vivo 看来，AI 的感知能力应该是主动的，可以帮你观察环境亮度、空间的纵深、甚至人际的距离，如果未来的 AI 想要能和人进行很好的互动，那么前面这些就是必须要具备的。

举个很实在的例子：未来手机看到你在逛超市，就能推送优惠信息；看到你在开会，就能自动开启会议 Agent，帮你做会议纪要。这些场景，没有影像主动的实时感知，AI 根本无从下手。

聊到这里，咱们总算是把影像和 AI 感知能力之间的联系给唠明白了，而在听完博鳌的分享后，我也是回过味来了——

你们还记得不，2023 年胡柏山就透露过 vivo 会切入机器人赛道，并且还说：" 最适合做机器人的就是手机行业，甚至没有之一。"

现在来看，这些行业巨头看到的东西，跟我们普通人还是不太一样，当年胡柏山敢说这话，是因为影像积累的视觉感知能力，正是机器人 " 看懂世界 " 的关键，

而 vivo 要做的，就是把这种能力，延伸到手机之外的生态产品上。

他们的战略很清晰，就是以影像 + AI 为核心，构建感知系统，一边重塑手机，让手机变成更智能的 " 随身助理；一边布局 MR 头显、家庭机器人等生态设备，让感知能力覆盖更多场景。

胡柏山在群访现场剧透，机器人 LAB 现在还在梳理路径，会聚焦年轻人的生活场景，比如照顾宠物、收纳衣物，先从简单的场景入手，逐步迭代，不追求一步到位。

而且他们很清醒地认为，大模型未来会越来越同质化，真正的差异化在于场景数据——因为不同品牌聚焦的场景不同，积累的数据就不同，而影像正是获取这些差异化数据的核心。

就像特斯拉的 FSD 虽然开源部分技术了，但是最核心的代码和数据并没有公开，所以其他家也做不到跟特斯拉一样的体验，而 vivo 更聚焦场景数据，这也会成为自己的核心竞争力。

在这波 AI 的大浪潮里，每一家头部厂商都在为未来布局，但 vivo 没有盲目地跟风追 AI 热点，而是选择了在自己原有的影像长板基础上，去为 AI 打造感知能力，让 AI 在未来可以真正走进我们现实的生活中。

我们总说人类是 " 视觉动物 "，其实我们创造的智能体，未来也会是 " 视觉动物 " —— vivo 接下来想做的，就是好好打磨 AI 的这双 " 眼睛 "，用影像来给 AI 落地铺路架桥。

虽然目前我们还没看到最终的成果，但蓝厂是打算先从手机 - MR 头显 - 机器人的发展路径入手，用 " 沿途下蛋 " 的方式，不断产出阶段性的成果，这也让我们看到了未来更多的可能性。

撰文：粿条

编辑：米罗

美编：素描

图片、资料来源：

vivo

为什么 AI 能看到世界，却不懂世界？——一凡

它知道你在搬重物，但不知道你會受傷：想讓 AI 讀懂物理世界究竟多困難？—— Min

部分图片为 AI 生成

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

和 vivo 总裁聊了聊，发现我对影像的理解太浅了。

宙世代

一起剪

相关阅读

不跟算法斗，汤臣倍健强科技转型改写行业竞争逻辑

中国芯片研发重要成果！中科院发布香山、如意系统

开放 Siri，苹果决定打开万亿「AI 生态」

小米之家巡展车来了！63辆开进全国15省：手机、大家电搬上车

马斯克暗示特斯拉可能推出三排座车型

杨植麟、罗福莉、夏立雪、张鹏、黄超，五个AI圈顶流把龙虾、Token 、开源聊透了

Farewell，Mac Pro

金价狂飙还能亏？“黄金界爱马仕”狂卖300亿，有人连汤都没喝上…

华为推896线激光雷达让老车主不淡定了！问界回应硬件是否能升级

荣耀WIN游戏本4月将至！联手《三角洲》职业联赛：冲击高端性能旗舰

百度前高管杨睿刚创业入局具身智能，已完成千万级种子轮融资

美团发布原生多模态 LongCat-Next

阿里QoderWork打通钉钉、微信、飞书 手机端可直接召唤桌面AI助手

Arm CEO自信：AGI CPU是Intel/AMD的麻烦、不会得罪NVIDIA

最新评论

差评

企业资讯

热门订阅 换一批

挖贝网

银莕财经

医线Insight

GMIF创新观察

中保新知

AI价值官

局市

阿里QoderWork打通钉钉、微信、飞书手机端可直接召唤桌面AI助手

热门订阅换一批