4 月 16 日,蚂蚁灵波科技正式开源流式三维重建模型 LingBot-Map。该模型仅依赖一颗普通 RGB 摄像头,在视频采集过程中可实时完成相机位姿估计与场景三维结构重建,推理速度达 20FPS,支持超过 10,000 帧的长视频连续推理,且长序列运行精度几乎无衰减。
LingBot-Map 采用纯自回归式建模架构,基于几何上下文 Transformer 设计,引入几何上下文注意力机制(GCA),在不依赖未来帧信息的前提下逐帧处理当前及历史画面,持续输出精准的相机位姿和深度信息。该模型在 Oxford Spires 数据集上的绝对轨迹误差(ATE)为 6.42 米,轨迹精度较此前最优流式方法提升 2.8 倍,优于离线方法 DA3(12.87 米)和 VIPE(10.52 米)。在 ETH3D 基准测试中,其重建 F1 分数达到 85.70,较第二名提升 8% 以上。


目前,LingBot-Map 的模型与代码已在 Hugging Face、ModelScope 及 GitHub 平台开放,相关论文同步发布于 arXiv(编号 arXiv:2604.14141)。该技术有望降低自动驾驶与具身智能系统对高成本传感器的依赖,推动空间感知能力向轻量化、低成本方向演进。
(图 / 文 网通社 言隐)