万亿市场格局未定：「端侧原生」，一家中国 AI 公司给物理 AI 抛了个新解法

过去几年，AI 的战场在屏幕里。GPT 系列用参数堆出了惊人的语言能力，Sora 用视频生成震撼了全世界……但 2026 年，产业界达成了一组共识：2026 年，是物理 AI 的元年。

年初拉斯维加斯 CES 上，英伟达 CEO 黄仁勋用一场演讲，17 遍提及物理 AI，用以宣布 " 物理 AI 的 ChatGPT 时刻已经来了 "。这也是他近两年一直推崇备至的关键词。而在过去的 2 年多时间里，物理 AI 在 " 大脑 "（VLA 模型）、" 想象引擎 "（世界模型）、训练场、本体及商业闭环五个维度取得关键进展，行业已初步具备走出演示环境、向真实场景探索的技术基础。

就在 2026 年上半年，全球物理 AI 领域的资本流动呈现出惊人的密度和规模。光一季度，全球物理 AI 融资就超过了 64 亿美元。其中不乏 AMI Labs10.3 亿美元种子轮、World Labs10 亿美元融资，国内千寻智能三月完成四轮 45 亿元融资的案例。同时，物理 AI 的技术路线也呈现出清晰的产业分化。基础模型层呈现 VLM、VLA 与世界模型三条路径收敛之势。世界模型作为后台数据工厂合成训练数据，VLM 承担长程规划的 " 慢思考 "，VLA 则把指令与感知直接转化为动作。

技术路线似乎已然固化，核心观点基本指向物理 AI 未来的核心技术架构将是 "VLA 与世界模型的深度闭环 " —— VLA 负责 " 说人话、做决策 "，世界模型提供 " 内嵌物理引擎 "，提前模拟动作的物理后果，验证计划可行性。

不过，这些方案已经是 " 物理世界需要什么样的 AI" 这一核心问题的最终答案了吗？

物理 AI 还是一场 " 开放竞争 "

资本汹涌、巨头入局、量产捷报频传，物理 AI 被视为下一个万亿级市场。

据 Future Markets 预测，全球物理 AI 市场规模将从 2026 年的约 3830 亿美元增长至 2040 年的 3.26 万亿美元，构成有史以来最大的科技市场扩张之一。Coatue Management 的预计则更为激进，认为物理 AI 市场规模至少可达 6 万亿美元，较数字 AI 高出约 50%。

但是，不同于数字 AI 领域竞争格局已日益明朗，物理 AI 当下的特征可谓是 " 格局未定 "，决定胜负的维度——制造能力、部署数据、监管速度、供应链控制、基础模型智能——分布在不同的竞争者手中。

作为物理 AI 的底层底座，被寄予厚望的世界模型，产业界对其定位也远未形成共识。智源研究院院长王仲远曾指出，当前世界模型主流路线已有四条：以语言为中心路线（如 Gemini3）：能感知多模态数据，通过语言思考并描述下一状态，具备规划决策能力；以像素为中心路线（如 Sora）：适合视频生成，但不懂物理因果；以三维结构为中心路线（如李飞飞 World Labs 的 Marble）：瞄准元宇宙、游戏等数字世界仿真；以视觉表征为中心路线（如 LeCun 的 V-JEPA 系列）：预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

四类路线，各有拥趸，各有短板。而主流的 VLA、世界模型的技术路线中，有观点将 VLA、世界模型放在了对立面，也有一部分企业选择两条技术路线并进并探索融合。有人走 "VLA 为主、世界模型为辅 " 的嵌入路线，有人走 " 世界模型原生、强化学习驱动 " 的独立路线，还有人走 " 类脑算法 + 世界模型 " 的底层重构路线。

不同技术路线，在产业层面体现得更加尖锐。

在 "VLA 路线 " 阵营，英伟达在 GTC 2026 展示了自研 VLA 模型 Alpamayo，同时还有专为人形机器人设计的开源推理视觉语言动作（VLA）模型 Isaac GR00T N1.6；小鹏在 CVPR 2026 推出 X-Foresight，把世界模型直接嵌进 VLA 架构……在 " 世界模型路线 " 阵营，吉利汽车集团在 GTC 2026 发布 WAM 世界行为模型；World Labs 持续押注空间智能（以三维结构为中心的世界模型路线）；谷歌 DeepMind 于 2025 年 8 月发布一款通用型世界模型 Genie 3 ……在 "VLA+ 世界模型融合路线 " 阵营，也不乏热门企业，智元机器人、宇树科技、特斯拉 Optimus 等，其中，宇树科技更是表示将同时保持对 VLA 技术路线的持续跟进与对标，并探索 " 世界建模 " 能力与 VLA 架构的合理化融入方式。

当前物理 AI 尚无固定实现范式，或许将是最生动的写照。只是在基础模型层技术路线的选择上，似乎 VLM、VLA 与世界模型三条路径已经开始呈现收敛之势。

事实上，VLA 模型突破了过去将视觉、语言、动作视为独立领域的局限，主流 VLA 模型成功率已趋于稳定，任务执行能力快速提升。而世界模型本质是对环境动态的预测性表征，可为 VLA 注入想象力，提供内嵌物理引擎，让 AI 能够提前模拟动作后果、验证计划可行性。

而纯反应式 VLA 仅能根据当前观测映射动作，缺乏对未来的推理能力，长时程规划易翻车，世界模型是破局的核心。这也使得 VLA 与世界模型的融合成为主流之势。

但值得思考的是，面向物理 AI 的模型，到底应该是什么样子？

答案或许既不在技术路线，也不在发布会的演示视频里，而在真实场景的需求中。它的核心评价标准，从来不是 " 生成的世界够不够逼真 "，而是 " 能不能帮机器更好地在物理世界里行动 "，能不能降低试错成本、能不能提升泛化能力、能不能嵌入真实的业务闭环……

物理 AI 不缺 " 手 "，缺的是看懂物理世界

当行业热衷于讨论 VLA 与世界模型的路线之争时，一个更根本的问题被忽略了——对于绝大多数物理终端设备而言，真正缺失的不是 " 灵巧的操作 " 或是 " 对未来的预测 "，而是 " 对空间的基本理解 "。

曾有机器人在厨房 " 翻车 " 的视频在社交平台引发热议。视频中，一台人形机器人不仅打翻沙拉碗、酱汁飞溅，甚至失控摔倒在地。然而这并非孤例，从会空翻、能跳舞的炫技表演，到连叠衣服、收拾桌子都做不好的真实表现，" 翻车 " 正在从个别现象变成行业普遍困境。

现象背后的逻辑很简单，舞台上的流畅动作，都是预设编排、反复调试的结果，环境绝对可控；而家庭场景充满随机变数，杂物摆放、突发动静等不确定因素，都是机器人的技术难题。其根源，在于 AI 对物理空间的理解力远远跟不上硬件的能力。

物理 AI 并非与绝大多数人第一反应的人形机器人、自动驾驶等单一细分赛道，而是能够全方位渗透物理世界的庞大产业生态，应用领域宽广，涵盖自主机器人、自动驾驶车辆、人机系统、工业自动化、可穿戴设备以及支持 AI 的医疗和农业系统。这里面还包含摄像头、无人机、机器狗、巡检设备、工业终端、AI 眼镜等大量具备视觉能力的终端。

这一现状已引发全球 AI 巨头关注，如 Meta 发布的 Segment Anything Model 3、Google 发布的 Gemma 4 和 Vision Banana、英伟达 Jim Fan 提出的 Vision-FIrst 模型，这些模型虽然技术路线不同，但都指向一个共同的愿景：构建真正的通用视觉能力。

实际上，对于固定环境、固定坐标、标准化指令，只要求上万次重复动作零偏差的工业场景而言，传统物理 AI 已足以应付，但无规则杂物、随机指令、上万次场景各不相同的场景而言，真正缺少的不是灵巧手，而是持续感知、空间理解、精准定位和自主导航能力。

比如，机器狗不需要灵巧手，它需要的是在开放空间中自主导航；无人机同样不需要 " 手 "，它需要的是在无 GPS 环境下持续视觉定位；AI 眼镜不需要抓取物体，它需要的是精准的空间定位和实时环境理解；工业巡检终端不需要仿人形态，它需要的是在复杂环境中稳定感知和自主决策……

当前主流的 VLA（视觉－语言－动作模型）和世界模型技术路线，恰恰在 " 空间理解 " 这个维度上存在共同的盲区。VLA 把 VLM 当主干，动作仅作为 " 头 " 附加其后，语言部分吃掉 90% 以上算力与数据，动作部分长期欠训练。世界模型试图弥补这一缺陷，通过预测物理世界的下一个状态来建立对物理规律的理解。但目前的瓶颈同样尖锐：高质量数据缺乏，远低于大模型所需规模。

翻车的本质，不是机器人不够 " 聪明 "，而是它还 " 看不懂 " 它所在这个连续、复杂且充满不确定性的物理世界。

这正是 Om AI 联汇过去五年里走了一条与主流不同的路。它没有追逐当时最热门的 " 灵巧操作 " 方向，而是回到了物理 AI 最基础的问题：如何让 AI 先 " 看懂 " 物理世界，再谈其他。其于 6 月 27 日— 29 日发布的 VLX-Flow、VLX-Seek、VLX-Go 系列模型，从物理 AI 最基础、最通用的视觉能力切入，提出了流式多模态的新思路。

具体而言，VLX-Flow 解决 " 持续感知 " 问题，其让 AI 像人一样持续观察，而不是被动等提问。传统视频理解是 " 截一帧、问一次、答一次 " —— AI 看视频就像翻连环画，每一页都要重新翻开、重新阅读。Flow 通过 Linear Attention 和双层记忆（视觉缓存 + 文本 carryover），让视频流 " 像水流一样持续进入模型 "，AI 自己一直在看、一直在记。

Flow 推理速度优势

VLX-Seek 解决 " 精准定位 " 问题，让 AI 实现从 " 大概看到 " 到 " 精准锁定 " 的转变。VLX-Seek 把定位从 " 坐标生成 " 改成 " 区域指代 " ——前者是让模型 " 猜坐标 "，后者是给模型真实区域让它 " 选 "，为机器人和设备提供毫米级空间锚点。方法不同，结果也天差地别：VLX-Seek 能以更小的数据实现更优的效果。

Seek 技术架构图

VLX-Go 解决 " 行动决策 " 问题，让 AI 从 " 会理解 " 向 " 会移动、会跟随、会导航 "。它不是输出 " 往左走 " 这样的文本建议，而是通过 " 短时航点预测 + 离线轨迹学习 + 在线 RL 优化 " 的逻辑，直接输出可执行航点轨迹，让设备自己走过去。

这一范式切换的关键假设是：物理世界的 AI，不应该是 " 等用户提问才回答 " 的被动系统，而应该是 " 一直看、持续记、随时动 " 的主动系统。前者是数字 AI 的交互逻辑——对话由人类发起；后者是物理 AI 的工作逻辑——环境变化本身就是触发信号。

在这个范式下，视觉信息不是以 " 截一帧 " 的方式进入模型，而是以 " 连续流 " 的方式持续进入。模型不是 " 看完再说 "，而是 " 边看边理解、必要时主动行动 "。这对应的不是 " 更好的人机对话体验 "，而是 "AI 自主工作能力的质变 "。

这一转变的意义，或许不在于它让模型 " 更好 "，而在于它让 AI 在物理世界中的存在方式发生了根本变化——从 " 等用户来问 " 到 " 一直在线工作 "。

当数以亿计的摄像头、无人机、机器狗、可穿戴设备不再只是 " 拍摄工具 "，而成为持续理解物理环境的 " 感知终端 "，并自主完成感知、定位、决策的全闭环——这个转变的产业价值，可能远大于机器人的惊艳演示。

让物理 AI 走进产业

物理 AI 从来不缺 " 技术高度 " 的叙事，但产业化的真正分水岭，在于技术能否在真实约束下创造可量化的业务价值——这决定了它能走多高、走多远。

VLX 系列模型有着许多技术创新，比如以 Linear Attention 替代标准 Attention、双层记忆机制、区域指代范式（Region Token）替代坐标生成、短时航点设计替代链路规划等。这些技术创新提供了一个观察样本：当一套技术架构从实验室走向真实物理世界时，它到底解决了什么真实问题？

首先看端侧，在工业巡检、应急管理等场景中，网络断连是常态而非例外。一台在厂区飞行的无人机、一个在地铁工地巡逻的机器人……如果每次决策都要等云端回传，任何延迟都意味着 " 来不及 "。端侧让决策在设备本地完成，延迟从秒级压缩到 0.1 秒以内——这不是体验问题，而是业务能否成立的根本问题。端侧推理将决策闭环压缩到设备本地，延迟从秒级降至 0.1 秒以内，在产业实操中，这直接将大量高危、高动态场景从 " 技术不可行 " 推进到了 " 商用可落地 " 的区间。

其次看原生架构，VLX-Go 的决策路径完全由其应用场景所定义——精准适配更轻量的短时航点，这样可以更快地应对外界环境的变化。0.6B 的参数规模下，它不做 " 深度推理 "，只做 " 实时响应 "。这并非技术妥协，而是对端侧设备 " 能力边界 " 的清醒认知——工业级无人机和巡检机器人往往搭载功耗受限的嵌入式芯片，算力顶多支撑数 B 级模型的实时推理。在此约束下，" 更快行动 " 的价值远大于 " 更深思考 "。

Go 架构图

更值得关注的是其研发范式的差异化：行业普遍将端侧模型视为 " 云端模型的压缩版 "，通过蒸馏、剪枝向下移植；而 VLX 的逻辑是反向的——先明确端侧硬件的算力天花板，再在边界内做能力最大化的原生架构设计。这种 " 端侧优先 " 的研发理念，与边缘计算走向 " 专用化、轻量化、硬实时 " 的产业趋势高度同频，也更契合物理 AI 对确定性时延的刚性需求。

这套模式已经在产业上得以验证。其中，机器人侧，云深处、宇树等具身头部企业已完成部署；无人机侧，公安、海事、自然资源、园区、应急、救援等低空场景已经商用落地；安防摄像头侧，已经完成百万级摄像头的商业化服务接入。

当然，目前物理 AI 仍处于起步阶段。不管是更丰富的人－机－环境交互、还是复杂环境的任务执行，都仍是开放问题。但于物理 AI 而言，VLX 带来的最大冲击，并非某几项算法指标的突破，而是一整套关于 " 智能存在方式 " 的思辨——在物理世界里，智能的度量衡不再是参数量的堆叠，而是决策时延的长短与算力利用率的极致。

如果 2026 年是物理 AI 的元年，那它注定不会是一场路线清晰的马拉松，而更像一次迷雾中的多路攀岩。有人押注 " 大脑 " 的深度推理，有人下注 " 想象力 " 的预测能力，也有人如 Om AI 联汇这般，选择了朴素却刚需的切入点——让机器持续看懂眼前的世界，并且可以做出准确的决策。真正值得产业界思考的是：当物理 AI 的终局形态尚是开放问题，我们究竟是在 " 用技术探索场景 "，还是在 " 用场景重塑技术 "？答案不在论文里，也不在演示中，而藏在每一次现场部署后的真实反馈里。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

万亿市场格局未定：「端侧原生」，一家中国 AI 公司给物理 AI 抛了个新解法

宙世代

一起剪

相关阅读

对话雅诗兰黛集团总裁兼CEO司泰峰：让一家“慢”公司变快，这是他的第一年

最新评论

36氪

热门推荐

企业资讯