Abstract not available.
机器人操作涉及运动学和语义状态的转换,这些转换通过底层动作固有地耦合在一起。然而,现有方法仅在语义空间或潜在空间内进行规划,而未显式对齐这些跨模态转换。为解决此问题,我们提出了CLaD框架,该框架通过非对称交叉注意力机制建模本体感知状态和语义状态如何在动作作用下共同演化,使得运动学转换能够查询语义转换。CLaD通过采用指数移动平均目标编码器和辅助重建损失的自监督目标,预测接地的潜在前瞻,既防止表征崩溃,又将预测锚定于可观测状态。预测的前瞻与观测值进行调制,进而为扩散策略的动作生成提供条件。在LIBERO-LONG基准测试中,CLaD实现了94.7%的成功率,与参数规模显著更大的大型视觉语言动作模型相比具有竞争力。