APP下载

关于ZAKER

Skills 合作

量子位 17小时前

0.9B 跑出 90% 真机成功率！上海交大为 VLA 补上空间感

机器人看得见，但不一定看得准。

大量 VLA 模型仍然主要依赖二维视觉，一旦遇到精定位、细摆放、遮挡判断这类需要空间感知的任务，成功率就会明显下滑。

补空间信息的路有两条，但都有代价。

显式 3D 路线靠深度传感器和点云重建，硬件链路长、对标定误差敏感；隐式 3D 路线从 RGB 学几何，省了硬件，但不少方案依赖较重的基础模型，训练和推理成本偏高。

现在，上海交大 MINT 团队提出了一条中间路线 :

Evo-Depth，约0.9B参数，不额外增加硬件负担，用紧凑的隐式深度编码把空间感写进 VLA 策略里，仿真与真机同时兼顾性能与部署效率。

仿真端，Meta-World 84.4%、LIBERO 95.4%；真机平均成功率约 90%；部署侧约 3.2 GB 显存、约 12.3 Hz 推理频率。

代码、权重、训练脚本已全面开源。

轻量、可端到端训练

直入主题，Evo-Depth 的核心思路是 :

从多视角 RGB 提取紧凑的隐式深度表征，再以轻量方式融入视觉 - 语言通路，最后通过 flow-matching 动作专家输出连续动作。

整个系统主要由三部分组成 :

1、IDEM：Implicit Depth Encoding Module。

IDEM 负责从多视角图像中提取隐式深度特征，强调空间布局与相对几何关系，而不是显式生成高成本的 3D 中间表示。

论文中，IDEM 骨干约 0.13B 参数，并结合多视角深度预训练初始化，在轻量条件下引入与深度相关的归纳偏置。

2、SEM：Spatial Enhancement Module。

SEM 将隐式深度作为一种调制信号，用于增强视觉 - 语言表征。

相比直接增加独立深度分支，这种融合方式更克制 :

原有 VLM 继续负责语义理解

深度特征主要负责空间增强

同时尽量控制延迟与显存开销

3、Progressive Alignment Training。

多模块联合训练通常容易出现优化不稳定的问题。

为此，作者采用 Progressive Alignment Training，通过分阶段训练方式逐步完成：深度表征对齐 - 多模态融合 - 动作学习。

动作头则采用了当前 VLA 中较常见的 flow-matching 路线。

在约 0.9B 总参数设置下，论文报告的结果如下。

仿真：Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。

真机：平均成功率约 90%。

部署：约 3.2 GB GPU 显存、约 12.3 Hz 推理频率。

值得注意的是，相比只关注 benchmark 分数，论文也给出了部署侧开销与实时性指标。

对于需要真正运行在机器人控制回路中的 VLA 来说，这部分信息往往同样重要。

性能 - 成本 - 实时性的折中

归根结底，Evo-Depth 解决的问题其实就是一句话：

如何在不显著增加系统负担的情况下，提升 VLA 的空间能力。

结果是——相比纯二维 VLA，它补充了空间信息；相比更重的 3D 路线，它又尽量保留了部署效率。

对于正在做机器人操作、空间智能或 VLA 系统的团队来说，这类性能 - 成本 - 实时性之间的折中方案，可能会越来越重要。

官方仓库：https://github.com/MINT-SJTU/Evo-Depth

模型权重：https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

AI眼镜竞速：巨头争抢新入口，中国企业走到哪一步了？

21世纪经济报道 4小时前

“韬定律”：华为芯片的底层秘密

21世纪经济报道 4小时前

三体公司回应许垚被执行死刑，小米发布世界模型全新框架，抖音电商上线跨境新要求，北京汽车制造厂不能用北汽，这就是今天的其他大新闻！

差评 4小时前

子公司签下60亿元算力协议盛视科技上月称拟购买不超71亿元资产

财联社 6小时前

黄仁勋：AI时代孩子学什么专业没那么重要真正要紧的是会不会用AI

快科技 6小时前

摩尔线程MTT S5000（PH100芯片）通过国家《安全可靠测评》

快科技 7小时前

卢伟冰：AI是手机行业最大的增量机会今年七八月将发布新一代OS

数码测评 9小时前

黄仁勋发声：这种做法相当不负责任我非常反感

快科技 10小时前

盛视科技：全资子公司签署60亿元算力产业合作协议

财联社 10小时前

SpaceX IPO引发太空热火箭和卫星股大涨

新浪财经 3小时前

小米集团：第一季度新车交付量达到80856辆，同比增长6.6%

36氪 11小时前

手机赚钱养汽车！小米富贵在AI？

雷科技 5小时前

取消部分保底？“短剧万播五块”冲上热搜：AI漫剧洗牌进行时

网易娱乐 5小时前

Kensington推出入门级雷电5扩展坞 80Gbps速度支持三路4K

新浪财经 5小时前

首发麒麟2026！华为Mate 90系列顶配搭载6.9英寸双层OLED屏

快科技 12小时前

量子位

觉得文章不错，微信扫描分享好友

企业资讯

查看更多内容

Blockchain News

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

0.9B 跑出 90% 真机成功率！上海交大为 VLA 补上空间感

宙世代

一起剪

相关阅读

AI眼镜竞速：巨头争抢新入口，中国企业走到哪一步了？

“韬定律”：华为芯片的底层秘密

三体公司回应许垚被执行死刑，小米发布世界模型全新框架，抖音电商上线跨境新要求，北京汽车制造厂不能用北汽，这就是今天的其他大新闻！

子公司签下60亿元算力协议 盛视科技上月称拟购买不超71亿元资产

黄仁勋：AI时代孩子学什么专业没那么重要 真正要紧的是会不会用AI