Abstract not available.
高层视觉-语言理解与低层动作控制之间的异构性,一直是机器人操作领域的一个根本性挑战。尽管近期方法在任务特定动作对齐方面取得了进展,但它们往往难以针对新颖或语义相关任务生成鲁棒且精确的动作。为解决这一问题,我们提出了语言锚定解耦动作表示(LaDA)框架,该框架利用自然语言作为连接感知与控制的语义桥梁。LaDA引入了一个细粒度的中间层,包含三种可解释的动作基元——平移、旋转和夹爪控制——为低层动作提供了明确的语义结构。该框架进一步采用语义引导的软标签对比学习目标,以跨任务对齐相似的动作基元,从而增强泛化能力和运动一致性。受课程学习启发,一种自适应加权策略动态平衡对比学习与模仿学习目标,以实现稳定有效的训练。在模拟基准(LIBERO和MimicGen)及真实世界演示上进行的大量实验验证了LaDA在性能上的优越性,并能有效泛化至未见或相关任务。