关于ZAKER Skills 合作

LingBot-Map 开源

4 月 16 日,蚂蚁灵波科技正式开源流式三维重建模型 LingBot-Map。该模型仅依赖一颗普通 RGB 摄像头,在视频采集过程中可实时完成相机位姿估计与场景三维结构重建,推理速度达 20FPS,支持超过 10,000 帧的长视频连续推理,且长序列运行精度几乎无衰减。

LingBot-Map 采用纯自回归式建模架构,基于几何上下文 Transformer 设计,引入几何上下文注意力机制(GCA),在不依赖未来帧信息的前提下逐帧处理当前及历史画面,持续输出精准的相机位姿和深度信息。该模型在 Oxford Spires 数据集上的绝对轨迹误差(ATE)为 6.42 米,轨迹精度较此前最优流式方法提升 2.8 倍,优于离线方法 DA3(12.87 米)和 VIPE(10.52 米)。在 ETH3D 基准测试中,其重建 F1 分数达到 85.70,较第二名提升 8% 以上。

该技术填补了实时空间感知领域的关键技术空白,可为自动驾驶、机器人导航、避障及交互等应用提供稳定可靠的空间理解能力。传统 SLAM 系统依赖手工设计与复杂优化,而 LingBot-Map 将核心逻辑交由模型统一学习,在保持长序列稳定性的同时大幅减少冗余计算。

此次开源是蚂蚁灵波科技 2026 年以来技术布局的一部分。自 1 月起,该公司已相继开源高精度空间感知模型 LingBot-Depth、具身大模型 LingBot-VLA、世界模型 LingBot-World 及具身世界模型 LingBot-VA。LingBot-Map 的发布进一步补全了实时空间理解与在线三维建图的能力拼图。

目前,LingBot-Map 的模型与代码已在 Hugging Face、ModelScope 及 GitHub 平台开放,相关论文同步发布于 arXiv(编号 arXiv:2604.14141)。该技术有望降低自动驾驶与具身智能系统对高成本传感器的依赖,推动空间感知能力向轻量化、低成本方向演进。

(图 / 文 网通社 言隐)

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容