
当双足机器人在舞台上完成后空翻、在马拉松赛道上完成长距离奔跑,大众总会惊叹于具身智能的飞速发展。
但回到真实的家庭场景,这些看似先进的机器人,却连收拾散落的拖鞋、整理杂乱的客厅这些最基础的家务都无法完成。正如自变量 CEO 王潜所言:硬件已经到位了——双足、灵巧手、力控关节都很好。但大脑没有跟上。
但这种痛点,即将迎来颠覆性变革。
4 月 21 日,自变量机器人发布全球首个世界统一模型(WUM)架构下的具身基础模型 WALL-B,宣布 35 天后搭载该模型的新一代机器人将正式入驻真实家庭。
这场从 VLA 拼接架构到世界统一模型的底层革命,让家务机器人真正走出实验室,更标志着具身智能迎来了物理世界的 ChatGPT 式拐点。
硬件狂欢背后,家务机器人的三重壁垒
过去数年,中国具身智能行业迎来了爆发式的硬件迭代,双足机器人的运动能力、灵巧手的操作精度都已达到世界领先水平。
但尴尬的现实是,这些在实验室表现惊艳的机器人,始终无法真正走进普通家庭,其背后是三重无法突破的核心壁垒。
首先是赛道认知的错位。行业内普遍将马拉松机器人、舞蹈机器人作为技术标杆,却忽略了这两类产品与家庭机器人是完全不同的赛道。
王潜直言:" 马拉松机器人和我们是两个完全不同的领域,跟做语言模型的公司距离可能还要更近一点,跟跑马拉松的公司可能还要更远一点。"

这种认知错位让行业陷入了硬件参数的无效内卷,却始终没有解决机器人大脑的核心问题。
其次是技术架构的天花板。
目前市面上几乎所有的具身模型都采用视觉 - 语言 - 动作(VLA)的三段式拼接架构。视觉模块识别物体,语言模块理解指令,动作模块生成轨迹。
王昊指出:"VLA 架构本质上是三个独立模块的拼接,数据在这三个模块之间逐级传递,每经过一次模块边界就会发生信息损耗和延迟。更致命的是,它不理解杯子为什么会掉,不理解为什么盘子悬在桌边需要推回去。它只是在重复见过的东西。"
这种知其然,不知其所以然的缺陷,让机器人在实验室表现完美,一进入真实家庭就彻底失效。
最后一重壁垒是数据训练的陷阱。
行业内绝大多数具身模型的训练数据,都来自实验室环境下的标准化采集:固定的光照、固定的物体位置、无干扰的环境,自变量将这类数据形象地称为糖水数据——干净、可控,却与真实世界相去甚远。
而家庭场景中的数据,是嘈杂、多变、充满随机性的牛奶数据:不同家庭的装修布局、物品摆放千差万别,散落的玩具、突然跳上桌面的宠物,这些变量在实验室中无法完全模拟。
王昊强调:" 用糖水数据训练出的模型,在真实环境中会迅速失效,实验室数据是糖水,真实家庭数据是牛奶。"
世界统一模型重构底层智能
面对这些行业固有难题,自变量机器人选择了一条完全相反的路:彻底抛弃行业通用的 VLA 拼接架构,从零开始训练原生的世界统一模型(WUM),为家务机器人打造了一个真正能理解物理世界的 " 大脑 "。
这场从底层架构开始的范式革命,不仅破解了行业长期无法突破的技术壁垒,更构建了家务机器人赛道真正不可复制的核心竞争壁垒。
世界统一模型的核心突破,是用一体化架构彻底解决了 VLA 的先天缺陷。
WUM 架构的设计逻辑与苹果 M 系列芯片的统一内存架构有异曲同工之妙:将所有能力放在同一个网络中,从零开始联合训练、融为一体,彻底消除模块间的边界与数据搬运损耗。
王潜说道:" 模型在看到杯子的同时,就已经在准备伸手的动作;在触碰到物体的瞬间,就已经通过触觉反馈调整了握持力度。这种原生多模态的融合能力,让机器人第一次拥有了类似人类的同步感知与决策能力。"
更重要的是,WALL-B 还首次具备了原生本体感——无需外部传感器即可内知自身空间尺寸,王昊指出这一点甚至许多动物都不具备。
更具颠覆性的是,世界统一模型让机器人真正拥有了物理世界观。WALL-B 在训练过程中,将重力、惯性、摩擦力、速度等基本物理规律融入了模型底层。
王潜以手指摩擦为例:" 轻搓的时候很听话,紧一点的时候会一跳一跳——这是可变性物体加上非线性摩擦,出现高度随机性。这在自动驾驶、马拉松机器人里从未遇到过,但却是上肢操作中最复杂最困难的事。"
正是这种对物理世界的内生理解,让 WALL-B 在从未见过的家庭场景中也能实现零样本泛化,无需针对每个家庭重新训练。
与此同时,世界统一模型构建了数据 - 模型 - 迭代的闭环。自变量放弃了先采数据、再训模型、最后部署的离线模式,开创了在线进化模式。
王昊类比:" 就像人类学习用筷子——筷子掉了无数次,但每一次失败都在调整控制,最终形成稳定技能。WALL-B 在失败后会调整策略再次尝试,成功后将经验直接更新到模型参数中。"
毕竟机器人没法像语言大模型那样通过蒸馏快速实现,这是二者当下最大的不同。
而这种全链路工程体系,让自变量在家庭机器人赛道拥有了三年以上的技术领先窗口期。
机器人进入家庭拐点已至
自变量世界统一模型的发布与家庭落地计划的启动,从来都不只是一款新品的上市,而是具身智能行业从实验室炫技走向真实场景落地的关键拐点。
首先,世界统一模型的落地将推动具身智能迎来物理世界的 Aha 时刻。
王潜明确表示:" 我们希望在两到三年的时间里实现真正意义上的物理世界 Aha moment,就像当年 ChatGPT 所做的事一样。5 月 25 日机器人入驻真实家庭正是这个拐点的起点。"
王昊描述了家庭场景的真实需求:" 人们在家里没有特别高频的需求,但有很多很多小需求——摆鞋、叠衣服、铲猫砂、遛狗——合在一起就是大的需求。过去没有机器人能干多件事情,现在我们要解决这些长尾任务。"
当机器人能在普通家庭中完成这些日常家务,具身智能就将彻底摆脱花瓶式炫技的标签。
其次,这场底层模型革命将彻底重构家务机器人赛道的竞争逻辑。
硬件在中国从来都是没有壁垒的,今天有图纸,明天供应链全都被你整出来了。真正的壁垒是模型与数据的全链路闭环。
王潜举例说:" 谷歌拥有远超 OpenAI 的资源,却在两年时间里都没能完成追赶。在机器人领域,技术本身的壁垒能带来三年以上的领先。"
更重要的是,自变量已经构建了从数据采集到模型迭代的完整闭环。王昊透露:我们 2024 年初就自建了数据工厂,到现在仍然是全国乃至全世界规模最大的工厂之一。这种全链路能力,让自变量在大厂纷纷下场的竞争中保持了独特优势。
而且最大的作用是,家务机器人的规模化落地,将激活一个十万亿级的隐性市场。
王潜算了一笔账,家务劳动占 GDP 的比重大概在 20% 左右。人类每天花 1-2 小时做家务,8 小时工作,差不多 1/4 到 1/5 的比例。
在中国,4.02 亿职工每天都要花费大量时间处理家务,这些隐性的劳动付出构成了一个尚未被数字化改造的巨大市场。
自变量希望机器人真正造福大家,替代人去做自己不想做的事,而且比人做得更好。
自变量发布会主题 " 一个新的家庭成员的诞生 ",就是希望它是一种新的生活方式:当通用家务机器人实现规模化普及,它将像当年的洗衣机、冰箱一样成为家庭必备的终端产品,打开一个远超家电、汽车的全新终端市场。
结语:
从舞台上的精准表演到家庭里的柴米油盐,具身智能的终极价值从来都不是完成高难度的炫技动作,而是融入普通人的日常生活,解决真实的生活痛点。
王潜说:" 尽管进入家庭的机器人现在还很笨,走得很慢,经常犯错。人类从婴儿时期迈出的第一步也是如此。每一个伟大的旅程,都是从踉踉跄跄的第一步开始的。"
自变量世界统一模型的出现,不仅为家务机器人装上了真正能理解世界的大脑,更推开了具身智能走进真实世界的大门。
回望技术发展史,每一次通用技术的拐点都始于一个看似微小的场景突破—— ChatGPT 用对话交互打开了数字世界通用智能的大门,而搭载世界统一模型的家务机器人,正在用家庭场景的落地,开启物理世界通用智能的全新时代。
随着机器人真正走进千家万户,这场始于底层模型的革命,终将改写整个具身智能产业的未来。