将深度信息作为 VLM 核心输入！视启未来 × 清华 × IDEA 帮机器人看懂物理世界

机器人能认出杯子，却看不懂杯口朝哪、离自己多远、该抓哪里。

这是当前 VLM 在物理世界里的尴尬。

如果将深度信息无缝整合进 VLM 系统，一切或将大不一样。

人工智能的终极目标之一，是构建能够完整理解、建模、预测并自主作用于现实世界的智能系统。在通往这个目标的道路中，空间智能是底层感知和理解基座，支撑 AI 大脑走进现实，感知、理解以及完成与物理世界的真实交互。

长期以来，空间感知信息的模糊性，一直是阻碍 AI 与物理世界深度适配的重要瓶颈。基于此，视启未来（Visincept）团队联手清华大学、IDEA 研究院提出了全新的具备空间感知能力的视觉 - 语言框架SpatialPoint，通过提升机器人在三维空间中感知并确定行动位置的能力，补齐 AI 与现实交互的短板，从而推进具身应用落地与 AI 大脑发展。

△ 不同具身场景下 SpatialPoint 的精准应用难以适配物理世界的智能

尽管今天的视觉 - 语言模型（VLM）已具备强大的物体识别与语义理解能力，能够轻松分辨常见以及部分垂直、长尾场景的物体，也能响应诸如 " 把杯子放到桌上 " 等自然语言指令。

但在实际的三维场景中，这些能力并不能有效转化为可落地的空间操作能力。相反，空间操作信息的模糊性和不确定性，常常导致机器人无法稳定、精准地与物理世界交互。造成这类情况的原因，可归结为三点：

（1）过度依赖 RGB 图像，缺乏真实度量深度，空间判断全靠猜测

虽然 RGB-D 传感器在机器人中应用广泛，但当前主流 VLM 仍以彩色（RGB）图像为主要输入，仅依靠纹理、透视等线索隐式推理 3D 结构，缺乏直接、精确的深度信息。

在执行类似 " 抓住桌上的杯子 " 等任务时，模型虽能定位到杯子，却无法精准判断其与镜头的距离、杯口朝向，以及稳固的抓取位置。场景或视角一旦改变，距离与位置判断便会失效，导致机器人频繁出现抓空、抓偏、碰撞等问题。

从技术本质看，单目 RGB 缺乏显式度量几何信息，几何保真度低、跨场景泛化能力差，而多视图三维重建则依赖复杂的相机标定与位姿计算，落地难度大。

（2）只能输出 2D 框与语义标签，无法提供机器人可直接执行的 3D 坐标

传统 VLM 的输出多为 2D 框、语义掩码或物体类别名称，这些信息对机器人而言缺乏实际执行价值。机器人执行任务不需要 " 这里有杯子 " 的标注，而是需要精确到像素与毫米的三维行动点。比如面对 " 抓取杯子把手 " 的指令，传统模型只能框选出把手区域，无法直接告诉机械臂具体下爪坐标（如像素坐标 ( 865,711 ) 、深度 825 毫米）。这使得感知与执行之间出现巨大的断层，机器人还需要经过复杂的后处理、坐标转换、误差校准，流程繁琐且极易出错。

（3）实点与虚点割裂，无法在统一框架下完成两类关键任务

SpatialPoint 团队认为，具身智能需要从根本上具备在三维空间中确定行动位置的能力，并细化到 " 点 " 的维度。由此提出了具身定位的概念，即在视觉观察和语言指令的条件下预测可执行的三维点。

在与物理世界的交互中，机器人离不开两种核心的空间点位信息：一是物体表面的附着点，即实点（TouchablePoint），用于抓取、按压、接触等直接交互；二是无遮挡的自由空间点，即虚点（AirPoint），用于物体放置、移动导航、避障等间接交互。

但现有技术大多只能处理其中一类，缺乏能在统一接口下同时精准预测两类点位的模型。例如机器人想要完成 " 拿起杯子放到篮子上方 " 的任务，需要分别调用抓取点与放置点两套不同的模型、数据与接口，兼容性差、效率低下，无法满足一体化具身任务需求。

△ 实点和虚点的应用示例 SpatialPoint：让 AI 原生感知精确的空间信息

SpatialPoint 是面向具身定位任务设计的空间感知视觉 - 语言框架，该框架以 Qwen3-VL 为基础模型，开创性地将结构化深度信息作为核心输入，与 RGB、文本指令并行编码融合，实现端到端的相机坐标系三维点预测。

简单来说，SpatialPoint 能看懂彩色画面、读懂距离信息、听懂语言指令，从而能够原生输出机器人可直接在三维空间中使用的抓取点、放置点和导航点。

1. 核心创新

尽管有部分研究尝试将 RGB-D 传感器获取的深度度量信息引入视觉 - 语言模型，但这些方法均未突破 " 将深度作为辅助线索 " 的设计局限：它们要么将深度特征在模型中间层与 RGB 特征简单拼接；要么在模型输出 3D 结果后，用深度信息做后处理修正。

在这类设计中，深度信息从未进入 VLM 的核心视觉 - 语言融合推理流程，无法与 RGB 特征、语言特征产生深度的协同交互，相当于" 拿到了深度数据，却没真正发挥其度量几何价值 "，最终仍无法解决传统 VLM 的 3D 推理偏差问题。

SpatialPoint 面向空间智能场景做了更直接的架构设计，将深度从辅助信息提升为与 RGB、语言并行参与推理的核心输入，让深度信息从模型输入阶段就参与推理，贯穿视觉特征编码、多模态特征融合、3D 坐标预测的全流程。

与此同时，针对预训练 VLM 仅支持 RGB 和语言输入，直接加入深度模态会破坏模型原有能力的技术难题，SpatialPoint 通过 " 深度专用编码 + 特征对齐 " 和两阶段训练策略两大关键设计，实现了深度模态与预训练 VLM 的无缝融合，既激活了深度信息的度量几何价值，又保留了 VLM 原本的视觉 - 语言理解能力。

△ SpatialPoint 与现有空间感知方法的对比

此外，不同于现有方法要么只关注表面的交互点，要么只关注端到端的动作生成，SpatialPoint 实现了在一个统一的视觉条件接口下，同时提供涵盖表面附着点（实点，TouchablePoint）和周围自由空间中需要推理的目标（虚点，AirPoint）的统一视角，并直接输出机器人可执行的结构化 3D 坐标，实现" 模型输出即机器人执行指令 "，大幅降低了具身应用的落地复杂度。

2. 技术原理

SpatialPoint 的整体技术框架围绕 " 深度信息原生融合 " 展开，从深度编码、模型训练、多模态融合、3D 坐标四个环节，构建出端到端的 3D 点预测流程。具体操作如下：

△ 图 2 SpatialPoint 技术框架（1）深度编码

由于预训练 VLM 只支持 3 通道 RGB 输入，无法直接接收单通道的深度图，因此第一步需要先将单通道深度图转为 3 通道格式，适配模型视觉分词器；再复用 RGB 主干网络结构，为深度信息搭建专用主干网络，并让两个网络在相同的图像分块（Patch）网格中运行，生成空间、特征维度完全对齐的 RGB token 和深度 token，为后续两种特征的融合推理做好准备。

（2）两阶段训练

考虑到直接把深度信息加入预训练 VLM 一起训练会破坏 VLM 已有的能力，因此 SpatialPoint 采取了" 先适配、后融合 "的两阶段训练策略：

先冻结 VLM 的所有原有模块，只针对深度专用主干网络训练，并用 10 倍于基础的学习率让它快速掌握深度几何特征的提取能力，适配 3D 空间推理任务；

再解冻整个模型的所有模块，用标准学习率做全模型联合微调，让 RGB 视觉信息、深度几何信息和语言指令特征深度磨合、协同学习，最终实现深度信息与预训练 VLM 的无缝融合。

（3）多模态协同推理

为了让 RGB、深度、语言三种特征能有序融合，且协同推理，SpatialPoint 为深度 token 设计了专属的边界标记符 <dpt_start>/<dpt_end>，连同 RGB 的 <vision_start>/<vision_end>、语言文本 token 组合成一个统一的因果序列，一起输入多模态融合网络。模型会保留原本的因果注意力机制，让三种特征在推理中相互引导、彼此配合。

比如在解析 " 杯子左侧 30 厘米 " 的指令时，模型会同时结合 RGB 识别的杯子 2D 位置和深度图获取的杯子实际距离，联合计算出精准的 3D 目标点，而非三种特征各自推理后简单拼接结果。

（4）输出结构化 3D 坐标

最后，模型的语言建模头会直接生成 ( u,v,Z ) 格式的结构化 3D 坐标，无需额外的解码、转换步骤，其中 u/v 是图像上的像素相对坐标，Z 是对应位置的深度值（单位为毫米）。这个坐标可以直接被机器人的运动控制系统识别和解析，模型的推理结果就是机器人可直接执行的动作指令，大幅降低了从模型推理到实际落地的复杂度。

3. 自建数据集

为了支撑模型训练与评估，团队构建了 SpatialPoint-Data 数据集，该数据集总共包含260 万组 RGB-D 问答对，同时覆盖实点与虚点两类任务：

其中，190 万组实点数据，由 RoboAfford 的 2D 交互标注结合深度图提升为三维坐标获得；72 万组虚点数据，通过 DINO-X 目标检测、深度图与相机内参，自动计算方向、间距、物体间关系等三维几何约束生成。海量且多样化的数据，让模型具备极强的跨场景泛化能力。

△ SpatialPoint 数据引擎 4. 实验结果

本次实验针对机器人要找的两类三维点，制定了不同的效果评判标准：一类是需要机器人接触物体的附着点（实点），核心指标包括：

（1）能不能精准找到物体上的有效操作位置（2D 准确率）

（2）对这个位置的深度判断准不准（深度 MAE，数值越小越精准）

另一类是机器人只需定位的自由空间点（虚点），核心指标包括：

（1）能不能找对指定方向（DirPt，方向正确性）；

（2）在指定方向上是否满足距离约束（MetPt@5cm，5 厘米距离准确率）；

（3）方向和距离能不能同时找对（FullPt，联合成功率）

（4）距离预测的平均偏差（MeanErr，数值越小越精准）

而且所有距离相关的评判，都要先保证方向找对，这样的结果对机器人实际操作才有意义。

（1）实点预测效果大幅提升

在找物体可接触点的任务中，SpatialPoint 的表现实现了质的飞跃：整体能精准找对物体有效操作位置的概率达到 79%，远超其他主流模型的 74.1%、50.3%，在识别物体可操作部位、找空置操作区域等细分场景里，表现优异。

更关键的是，SpatialPoint 对距离预测的平均误差仅 17.2 毫米，在物体有效操作区域内的误差更是低至 9.3 毫米；而传统只靠图像的模型，距离预测平均误差高达 574.8 毫米，两者差距超过30 倍。这就说明，把深度信息作为核心输入融入模型后，不仅能精准找到物体上的操作位置，还能准确判断这个位置的实际距离，从根本上解决了传统模型 " 只看平面图像，靠猜测判断实际距离 " 的问题。

△ 基于 RoboAfford-Eval 数据集的实点结果验证（2）虚点推理能力显著增强

定位自由空间点，是机器人完成导航、放置物体等任务的关键，SpatialPoint 在这项任务上的优势更突出：

仅训练 1 轮，找对指定方向的概率就达到 48.86%，远超其他模型的 8.04%、5.32%；5 厘米内找对具体位置的概率 25.87%，方向和距离同时找对的概率 13%，距离预测的平均偏差仅 8.5 厘米；而传统只靠图像的模型，距离平均偏差高达 54.7 厘米。

随着训练轮次增加到 3 轮，SpatialPoint 模型的表现还在稳定提升，找对方向的概率最终稳定在 50.71%，5 厘米内找对具体位置的概率提升到 33.47%，方向和距离同时找对的概率提升到 16.41%，距离平均偏差也降到了 6.8 厘米，说明模型能很好地学习融合深度信息，训练效果越练越好。

△ 基于 SpatialPoint-Bench 数据集的虚点结果验证（3）复杂空间定位表现优异

不管是找指定方向的点、找两个物体之间的点，还是以物体自身大小为参照找距离，SpatialPoint 的表现都全面超过其他模型，找对方向的概率分别达到 51.61%、43.71%、50.97%，证明它在各种复杂的空间定位场景中，都能有稳定的表现。

△ 基于 SpatialPoint-Bench 数据集的复杂空间定位结果验证

△ 部分基于 RoboAfford-Eval 数据集的表面目标定性对比效果三、应用场景

除了数据实验，SpatialPoint 还使用真实的机器人完成了落地验证（参考本文顶部视频）。针对三大典型具身任务：语言引导机械臂抓取（实点）、物体放置到目标位置（虚点）和移动机器人导航（虚点），模型无需微调，即可准确输出机器人可直接执行的 3D 坐标，实现零样本泛化。

得益于仅需一个统一的视觉条件接口的巨大优势，SpatialPoint 让多任务一体化操作成为现实。

△ 一个模型实现导航、抓取和放置

想象一个复杂的全流程场景：当用户向机器人下达" 把餐桌上的水杯拿到客厅实木茶几正中央，再走到玄关鞋柜旁待命 "这一连贯指令时，传统 VLM 仅依靠 RGB 平面图像工作，既无法精准感知物体的实际深度和空间距离，也不能直接输出机器人可执行的 3D 坐标，完成任务时不仅需要切换多个专用模型、做额外的坐标转换处理，还极易出现抓空水杯、放置偏移碰撞、导航定位不准等问题，跨场景执行的稳定性也极差；

而搭载了 SpatialPoint 的机器人，由于将深度信息作为核心输入，通过单一模型就能融合 RGB 视觉、深度几何与语言指令信息，依次精准输出抓取、放置、导航所需的 3D 可执行坐标，无需任何额外处理，就能无误差、流畅地完成全流程操作，即便更换场景也能稳定执行，精准解决了传统 VLM 的核心痛点。

结语

三维交互预测是空间感知领域的核心瓶颈，也是推动空间智能从 " 感知理解 " 升级为 " 可执行、可落地、可闭环 " 的完整能力体系的关键一环。SpatialPoint 致力于生成精准、度量级、可执行且具备强泛化能力的空间感知信息，补齐这一关键短板，不仅为具身智能提供更加可靠的决策依据与执行逻辑，同时也为世界模型构建完备统一的技术支撑。

此外，SpatialPoint 在真实机器人平台上的落地与验证，持续为 AI 大脑提供高质量、可迭代的实测数据反馈，形成从模型到物理世界的闭环进化。

△ 图 5 SpatialPoint 致力于补齐 AI 与现实交互的短板

从空间感知到具身应用，再到世界模型，SpatialPoint 以简洁高效的深度原生设计，推动人工智能向物理世界迈进。人工智能突破屏幕的边界，真正走进完整、开放、动态的物理世界，这一目标已触手可及。

项目主页：

https://qimingzhu-google.github.io/SpatialPoint/#

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

将深度信息作为 VLM 核心输入！视启未来 × 清华 × IDEA 帮机器人看懂物理世界

宙世代

一起剪

相关阅读

30分钟下线一台！人形机器人，重大突破

上市险企算力竞赛白热化 AI不再只是降本工具

不读叉也不读埃克斯！身份证尾号的X到底如何读

这是罗技今年第几次被骂上热搜了？

疯狂存储芯片：涨幅100%超黄金 谁赚走了汽车的钱？

AI制药冲刺IPO 百图生科秘密递表港交所？

狂揽200余项SOTA！阿里发布Qwen3.5-Omni：多模态能力超越Gemini-3.1 Pro

空天能力加速落地，卫星应用重构产业生态

最新评论

量子位

热门推荐

企业资讯

热门订阅 换一批

GMIF创新观察

医线Insight

银莕财经

挖贝网

中保新知

局市

疯狂存储芯片：涨幅100%超黄金谁赚走了汽车的钱？

热门订阅换一批