Language-Grounded Decoupled Action Representation for Robotic Manipulation<br>面向机器人操作的语言锚定解耦动作表示<br>[摘要](abstracts/2603.12967.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

高层视觉-语言理解与低层动作控制之间的异构性，一直是机器人操作领域的一个根本性挑战。尽管近期方法在任务特定动作对齐方面取得了进展，但它们往往难以针对新颖或语义相关任务生成鲁棒且精确的动作。为解决这一问题，我们提出了语言锚定解耦动作表示（LaDA）框架，该框架利用自然语言作为连接感知与控制的语义桥梁。LaDA引入了一个细粒度的中间层，包含三种可解释的动作基元——平移、旋转和夹爪控制——为低层动作提供了明确的语义结构。该框架进一步采用语义引导的软标签对比学习目标，以跨任务对齐相似的动作基元，从而增强泛化能力和运动一致性。受课程学习启发，一种自适应加权策略动态平衡对比学习与模仿学习目标，以实现稳定有效的训练。在模拟基准（LIBERO和MimicGen）及真实世界演示上进行的大量实验验证了LaDA在性能上的优越性，并能有效泛化至未见或相关任务。

← Back