Abstract not available.
语言引导抓取作为一种通过自然语言指令使机器人识别和操作目标对象的有前景范式,但在杂乱或遮挡场景中仍面临巨大挑战。现有方法通常依赖将物体感知与抓取分离的多阶段流程,导致跨模态融合有限、计算冗余,且在杂乱、遮挡或低纹理场景中泛化能力差。为应对这些局限,我们提出了GeoLanG,这是一个基于CLIP架构构建的端到端多任务框架,它将视觉和语言输入统一到共享表示空间中,以实现鲁棒的语义对齐和增强的泛化能力。为提升遮挡和低纹理条件下的目标辨别力,我们通过深度引导几何模块(DGGM)探索了更有效的深度信息利用方式,该模块将深度转换为显式几何先验,并在不增加额外计算开销的情况下将其注入注意力机制。此外,我们提出了自适应密集通道集成方法,可自适应平衡多层特征的贡献,以生成更具区分性和泛化能力的视觉表示。在OCID-VLG数据集以及仿真和真实硬件上的大量实验表明,GeoLanG能够在复杂、杂乱的环境中实现精确且鲁棒的语言引导抓取,为在真实世界以人为中心的环境中实现更可靠的多模态机器人操作铺平了道路。