4 月 21 日,自变量机器人举行发布会,推出新一代机器人进家庭计划,宣布 35 天后搭载 WALL-B 的新一代机器人将首批入驻真实家庭。WALL-B 是其新一代自研具身智能基础模型,这是全球首个基于世界统一模型架构(World Unified Model,WUM)的具身智能基础模型,标志着具身基础模型从 VLA 架构向原生多模态融合架构的重大跨越。

据自变量联合创始人兼 CTO 王昊介绍,WALL-B 真正区别于行业其他方案的核心,是其从 VLA 到 WUM 的架构革命。该架构的设计思路类似于 Apple Silicon 的统一内存架构:在苹果 M1 芯片之前的 Mac 上,CPU、GPU、内存各自独立,数据搬运产生的延迟和损耗成为性能瓶颈;苹果通过统一内存架构让所有处理单元共享同一块内存,性能由此大幅提升。
在机器人领域,VLA 就类似于 M1 之前的笔记本电脑架构——视觉模块、语言模块、动作模块各自为政,数据在模块之间搬来搬去,每搬一次就丢一次信息。视觉学到的丰富信息,传到动作模块时只剩一个模糊的摘要。WALL-B 采用的 WUM 的核心理念与之相同——将视觉、语言、动作、物理预测等所有能力,放在同一个网络中从零开始联合训练、融为一体,消除模块间的边界和数据搬运损耗。

与之相对的,王昊比喻为 " 牛奶数据 ",即真实家庭环境中采集的嘈杂、多变、充满随机性的数据,也是自变量选择的数据道路。为了获取这类数据,自变量团队进入了数百个志愿者的真实家庭进行模型训练。
机器人进入家庭的同时,隐私问题不容回避。王潜对此给出了自变量团队明确的解决方案:视觉脱敏——机器人在设备端对原始图像进行实时打码处理,原始图像不离开设备,机器人看到的已经是去除个人特征的场景数据;透明授权——用户主动按下同意键后方可开机,不存在 " 默认同意 ",用户不同意则不开机;用途限定——绝不共享第三方,机器人只认一个主人,发现可疑指令立即锁定。
此前,自变量与 58 同城合作,将搭载 WALL-AS 模型的机器人送入真实家庭,与保洁阿姨协同作业,验证了家庭场景的可行性。此次发布则是迈向机器人独立驻家的关键一步。
在商业化落地方面,自变量的时间表也已经明确:35 天后,新一代搭载 WALL-B 并根据家居环境进行硬件升级的机器人将入驻首批用户的家庭。王潜指出,当前模型仍处于 " 实习生 " 阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来 " 思考 "。但其能够实现 24 小时不间断工作,且每工作一天都会因新数据的产生而变得更 " 聪明 "。
从即日起,自变量开始招募首进家庭机器人的家长,用户可通过官方渠道提交申请。
来源:新民晚报 作者:金志刚