华为 SpaceMind 登顶空间智能权威榜：纯 RGB 视觉语言模型拿下 70.6 分，刷新李飞飞榜单记录

大模型已经能流畅对话、看图识物，但一个更底层的问题始终没被真正解决——它们是否「理解」了我们所处的三维世界？

距离有多远、谁更大、从 A 走到 B 该往哪转、多视角下的顺序对不对——这些对人类近乎本能的判断，恰恰是通向具身智能、自动驾驶、机器人导航与 AR/VR 的关键能力。

业界正逐渐达成共识：下一阶段的竞争，不只在语言与语义，更在空间智能。

为把这件事真正做出来，华为 GTS AI 算法部联合香港中文大学（深圳）、香港大学，刚刚发布最新工作SpaceMind：

在仅使用 RGB 输入、不依赖深度图与点云的前提下，把纯视觉语言模型的空间推理能力，推到了接近人类的水平。

在李飞飞团队建立的空间智能权威榜单VSI-Bench上，SpaceMind 以70.6%的综合得分刷新纪录——而人类平均也才 79% 左右。

该工作已被CVPR 2026接收。

为什么「相机」不能只当备注

论文明确指出：现有 VLM 在处理空间任务时，往往把相机参数（内参、外参）视为普通元数据，与几何特征简单拼接，导致「视角」与「场景」混淆，难以建立一致的空间表征——模型「看见了」，却未必知道「从哪里看见」。

人类理解空间，从来不只是「看到了什么」，而是「从哪个位置看到的」。这种观察与视角的耦合，支撑人们估计距离、比较尺寸、推断连通关系、在陌生环境中规划路径。李飞飞教授所倡导的「空间智能驱动的 AGI」，正建立在这一认知之上。

SpaceMind 的核心洞察，正是把这一机制写进模型结构：让相机成为融合的「指挥棒」，而不是被动附录。

而要衡量模型是否具备这种能力，离不开权威、全面、贴近人类认知的评测体系。李飞飞建立的VSI-Bench迅速成为公认的空间智能试金石：人类平均准确率约79%，而此前的公开与闭源系统中，最强模型整体准确率长期徘徊在60%左右，与「真正看懂三维世界」仍有明显距离。

SpaceMind：相机引导的三模态融合范式

1、首次把相机表示定义为「引导模态」（guiding modality）。 不再把相机当作与场景同级的普通特征，而是作为主动调控信号，指导空间信息如何注入视觉语义流，更贴近人类以自我为中心的空间认知。

2、即插即用、不改动 VLM 主干。 方案无需修改视觉编码器、语言模型或连接器的核心结构，仅在进入 LLM 前插入轻量的 Camera-Guided Modality Fusion（CGMF）模块，可无缝集成到 InternVL、Qwen-VL 等主流架构，显著降低从零预训练与迁移成本。

3、纯 RGB 实现度量级空间推理。 单张或短视频即可支撑绝对 / 相对距离、物体尺寸、房间尺度、路径规划、跨视角外观顺序等高难任务，摆脱对深度传感器、点云或多视角重建管线的依赖，更贴近真实部署场景。

架构上，SpaceMind 采用双编码器架构：InternViT 提供语义视觉 token，VGGT 提供几何感知的空间 token 与逐帧相机 token；CGMF 在融合阶段对空间 token 施加相机条件偏置、学习 query-independent 的几何重要性权重，并以相机嵌入对融合结果进行门控，使「视角—几何—语义」在统一框架内对齐，同时保持与标准 VLM 接口兼容，支持端到端 RGB-only 训练。

实验结果：全面刷新，优势不只在一个分数

在 VSI-Bench 上，SpaceMind 以70.6%的整体准确率显著超越 Spatial-MLLM、VLM-3R 等几何增强基线，并在多项子任务上拉开差距。

例如在外观顺序（appearance order）这一极具挑战的跨视角一致性任务上，相较此前方法提升达30.5 个百分点——说明显式以相机信号调制空间 token，有助于整合跨视角证据、稳定多视角下的排序判断；路径规划（route planning）同样保持极具竞争力的水平。

在 SQA3D 这一基于真实室内重建的「情境化 3D 问答」基准上，SpaceMind 在多数问题类型上取得最佳表现，且仅使用视频 RGB 输入、不依赖深度 / 点云 / 网格等辅助模态，证明相机引导融合可从普通视频中恢复出强 3D 空间线索。

在 SPBench 的域外泛化评测中（训练数据未包含该基准），SpaceMind 整体得分达67.3%，大幅领先 GPT-4o、Gemini-2.0-Flash 等通用闭源模型，以及 Qwen2.5-VL、Spatial-MLLM 等开源与专用空间模型；即便在仅单帧输入的子集上，仍能在「仅按 32 帧视频片段训练」的设置下展现强跨场景迁移——这对实际产品中的「单图问答」尤为重要。

消融实验进一步印证设计逻辑：在 InternVL3-8B 基线上，浅层 cross-attention 融合 VGGT 空间 token 即可带来+3.7 分；叠加 token-weight MLP 与 geometric MLP 后，数值类与多选题子任务持续、稳定提升，完整 SpaceMind 架构达到最高平均准确率。

这不是「堆模块」，而是把 3D 视觉中长期强调的「相机与场景角色分离」，落实为可训练、可扩展的归纳偏置。

SpaceMind++：从单帧空间到视频级「认知地图」

面向动态真实世界，团队进一步受哺乳动物双通路视觉系统启发，提出SpaceMind++：一种能从 RGB 视频显式构建体素化认知地图的视频 MLLM 架构。

它通过坐标引导的深度融合机制，将碎片化视角重组为统一的 3D 度量表征，在动态场景中追求空间一致性与物体恒常性推理——让模型不只「答对一帧」，而是「记住这个房间、这件东西、这条路径」。

代码即将开源。

昇腾 384 卡节点 Scaling Up：把空间智能推向更大规模

如果说论文与基准评测证明了 SpaceMind 方向正确、有效，那么工程侧的 Scaling Up，正在把这一方向推向产业可用的量级。

目前，团队将 SpaceMind 系列空间智能模型放在华为昇腾 NPU 集群上开展大规模预训练与后训练——依托384 卡昇腾 910C算力池，在模型规模、长视频上下文与多任务数据上同步扩展，把相机引导融合能力从榜单验证推向可迭代、可部署的工程底座，持续放大 SpaceMind 的空间推理上限。

走向产业：赋能 AIDC 勘测设计

空间智能的价值，最终要落在真实场景里。SpaceMind 系列技术将面向 AIDC（智算中心）全生命周期中的勘测设计等关键阶段落地：

依托纯 RGB 输入下的距离估计、尺度比较与空间关系推理能力，模型可辅助解读园区航拍、现场巡检视频与机房实景图像，理解建筑布局、设备摆放与通道关系，为选址比选、平面规划、机柜列阵与走线设计提供可解释的空间判断依据。

在 SpaceMind++ 的视频级认知地图能力加持下，还可将多视角、多时段的现场记录整合为一致的三维空间理解，减少反复踏勘与人工量测成本，提升勘测设计阶段的效率与决策质量。

SpaceMind 论文：https://arxiv.org/pdf/2511.23075

SpaceMind 代码：https://github.com/RealMikeDuke/SpaceMind

SpaceMind++ 论文：https://arxiv.org/abs/2605.09449

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

华为 SpaceMind 登顶空间智能权威榜：纯 RGB 视觉语言模型拿下 70.6 分，刷新李飞飞榜单记录

宙世代

一起剪

相关阅读

1499元 华为FreeClip 2典藏版耳夹耳机开售：鎏光宝盒设计太抢眼 新增AI键

海洋具身智能公司「世航智能」拿下创纪录10亿融资，朱啸虎、淡马锡押注

苹果自研芯片可靠性凸显：故障率不到Intel Mac一半！

大模型港股走强 智谱一度涨超40%

“无招”没错，他只是老了

贾跃亭：FF将一口气发布4款机器人

鸿蒙成为中国第二大智能手机操作系统！人民日报点赞华为：以自强不息姿态开辟新天地

浙江联通今日起全面关停3G网络：WCDMA退出历史舞台

微软账号强制绑定正在渗透一切：Windows 11用户已无力应对

不是说要涨价，怎么一到618全在降价？

AI版支付宝来了？阿里巴巴涨超2%，腾讯控股获南向资金连续6日净买入，港股互联网ETF华宝早盘涨近2%

“空调一晚只用一度电？就是个噱头！” 对话格力朱磊：打价格战最终伤害的是消费者利益

三星集团成立能源业务特别工作组

USB接口颜色大不同：美国人几乎买不到紫色接口

索尼退出PC市场等于放弃中国！《死亡搁浅2》近半销量来自中国

最新评论

量子位

热门推荐

企业资讯

1499元华为FreeClip 2典藏版耳夹耳机开售：鎏光宝盒设计太抢眼新增AI键

大模型港股走强智谱一度涨超40%