关于ZAKER Skills 合作
量子位 17小时前

0.9B 跑出 90% 真机成功率!上海交大为 VLA 补上空间感

机器人看得见,但不一定看得准。

大量 VLA 模型仍然主要依赖二维视觉,一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务,成功率就会明显下滑。

补空间信息的路有两条,但都有代价。

显式 3D 路线靠深度传感器和点云重建,硬件链路长、对标定误差敏感;隐式 3D 路线从 RGB 学几何,省了硬件,但不少方案依赖较重的基础模型,训练和推理成本偏高。

现在,上海交大 MINT 团队提出了一条中间路线 :

Evo-Depth,约0.9B参数,不额外增加硬件负担,用紧凑的隐式深度编码把空间感写进 VLA 策略里,仿真与真机同时兼顾性能与部署效率。

仿真端,Meta-World 84.4%、LIBERO 95.4%;真机平均成功率约 90%;部署侧约 3.2 GB 显存、约 12.3 Hz 推理频率。

代码、权重、训练脚本已全面开源。

轻量、可端到端训练

直入主题,Evo-Depth 的核心思路是 :

从多视角 RGB 提取紧凑的隐式深度表征,再以轻量方式融入视觉 - 语言通路,最后通过 flow-matching 动作专家输出连续动作。

整个系统主要由三部分组成 :

1、IDEM:Implicit Depth Encoding Module。

IDEM 负责从多视角图像中提取隐式深度特征,强调空间布局与相对几何关系,而不是显式生成高成本的 3D 中间表示。

论文中,IDEM 骨干约 0.13B 参数,并结合多视角深度预训练初始化,在轻量条件下引入与深度相关的归纳偏置。

2、SEM:Spatial Enhancement Module。

SEM 将隐式深度作为一种调制信号,用于增强视觉 - 语言表征。

相比直接增加独立深度分支,这种融合方式更克制 :

原有 VLM 继续负责语义理解

深度特征主要负责空间增强

同时尽量控制延迟与显存开销

3、Progressive Alignment Training。

多模块联合训练通常容易出现优化不稳定的问题。

为此,作者采用 Progressive Alignment Training,通过分阶段训练方式逐步完成:深度表征对齐 - 多模态融合 - 动作学习。

动作头则采用了当前 VLA 中较常见的 flow-matching 路线。

在约 0.9B 总参数设置下,论文报告的结果如下。

仿真:Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。

真机:平均成功率约 90%。

部署:约 3.2 GB GPU 显存、约 12.3 Hz 推理频率。

值得注意的是,相比只关注 benchmark 分数,论文也给出了部署侧开销与实时性指标。

对于需要真正运行在机器人控制回路中的 VLA 来说,这部分信息往往同样重要。

性能 - 成本 - 实时性的折中

归根结底,Evo-Depth 解决的问题其实就是一句话:

如何在不显著增加系统负担的情况下,提升 VLA 的空间能力。

结果是——相比纯二维 VLA,它补充了空间信息;相比更重的 3D 路线,它又尽量保留了部署效率。

对于正在做机器人操作、空间智能或 VLA 系统的团队来说,这类性能 - 成本 - 实时性之间的折中方案,可能会越来越重要。

官方仓库:https://github.com/MINT-SJTU/Evo-Depth

模型权重:https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注 了解详情

点亮星标

科技前沿进展每日见

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容