港中文 GeoLanG ：基于几何感知的语言引导抓取技术，结合统一的 RGB-D 多模态学习机制

原文链接：http://www.labren.org/mm/news/?-icra-2026-???????-???????/

很高兴能够分享我们的最新成果—— ??????。这是一个基于几何认知的统一框架，能够实现语言引导的机器人抓取操作。

语言引导的抓取能力是实现直观的人机交互的关键能力之一。机器人不仅应该能够识别物体，还应该能够理解诸如 " 拿起碗后面的蓝色杯子 " 这样的自然语言指令。虽然最近的一些多模态模型取得了令人满意的效果，但大多数现有方法仍然依赖于多个阶段的处理流程，这些流程将感知与抓取预测紧密地结合在一起。然而，这些方法往往忽略了几何形态、语言信息以及视觉推理之间的紧密整合，因此在环境杂乱、遮挡严重或纹理低下的情况下，这些方法的性能会大打折扣。这促使我们努力弥合语义语言理解与精确几何抓取执行之间的差距。

让我们来看看这个挑战吧：

一种新的统一框架，用于几何感知且语言引导的抓取操作，包括以下功能：

统一的 RGB-D 多模态表示：

我们将 RGB 颜色、深度以及语言特征嵌入到一个共享的表示空间中，从而实现跨模态的语义一致性，进而实现精确的目标识别。

深度引导几何模块（DGGM）：

我们并没有将深度信息视为辅助输入，而是将基于深度信息推导出的几何先验信息直接融入注意力机制中。这样能够在遮挡或视觉环境不明确的情况下，更好地实现物体的识别与区分。

Adaptive Dense Channel Integration ( ADCI ) :

一种动态的多层融合策略，能够结合全局语义线索与精细的几何细节，从而实现对物体抓取的稳健预测。

在语言引导的抓取任务中，GeoLanG 在 OCID-VLG 基准测试上的表现显著优于以往的各种多阶段算法。

在杂乱且遮挡严重的场景中也能表现出极强的鲁棒性。

已在真实的机器人硬件上成功进行测试验证，证明从模拟环境到真实环境的转换是可靠的。

关键点总结：

这项研究表明，将几何推理与多模态语言理解紧密结合起来，可以显著提高机器人抓取系统的可靠性。通过将具有深度感知的几何先验信息直接融入注意力机制中，我们能够减少歧义，并提高抓取决策的一致性。

GeoLanG 提供了一种途径，使得机器人系统能够更加智能化。这些机器人不仅能判断需要抓取什么物体，还能在复杂的现实环境中稳健地抓取物体。

我们正在探索将这种几何感知的多模态推理技术扩展到：

Real-time interactive grasping

Multi-step manipulation tasks

Integration with motion planning and autonomous robotic control

雷峰网

从PC到AI，联想中国一场必打的仗

钛媒体 4小时前

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

港中文 GeoLanG ：基于几何感知的语言引导抓取技术，结合统一的 RGB-D 多模态学习机制

宙世代

一起剪

相关阅读

第一届AI博主已经碰到赚钱天花板了

上线新功能！数字人民币APP上可以买银行积存金了

SpaceX早期投资者：与特斯拉合并“只是时间问题” 马斯克将希望整合对其旗下公司的控制权

京东外卖首发行业最严堂食标准！已拒绝100万家幽灵外卖门店

25年来的最强投资人阵容是谁？福布斯发布全球最佳创投人“全明星”榜

《恋与深空》联名青桔单车刚上线就被薅秃！配件在二手平台高价售卖

对话云鲸创始人张峻彬：2 年之后，扫地机器人就有「手」干更多活了

非夕科技创始人王世全：机器人如何实现仿人化？

AI短剧，正在抢走全球游戏用户

从PC到AI，联想中国一场必打的仗

新质生产力呼唤AI落地，如何以政策之火成产业燎原之势？

科大讯飞林会杰：预期一两年内AI眼镜品类会迎来爆发

具身智能首次独立成馆 2026世界智能产业博览会今日开幕

多款数码产品即将登场 vivo S60、荣耀WIN Turbo明日发布

主频3.1GHz！华为麒麟2026芯片已流片成功：等效达3nm水平

最新评论

雷峰网

热门推荐

企业资讯