Abstract not available.
视觉-语言-动作模型(VLAs)有望将语言指令落地到机器人控制中,但在实践中往往无法忠实地遵循语言指令。当面对缺乏强场景特定监督的指令时,VLAs会遭受反事实失败:它们基于数据集偏见诱导的视觉捷径采取行动,反复执行已习得的行为,并选择训练中频繁出现的对象,而忽略语言意图。为系统研究此问题,我们引入了LIBERO-CF——首个针对VLAs的反事实基准测试,通过在视觉上合理的LIBERO布局中分配替代指令来评估语言遵循能力。我们的评估表明,反事实失败在现有最先进的VLAs中普遍存在且尚未得到充分探索。我们提出了反事实动作引导(CAG),一种简单而有效的双分支推理方案,能显式地正则化VLAs中的语言条件。CAG将标准VLA策略与无语言条件的视觉-动作(VA)模块相结合,实现了动作选择过程中的反事实比较。这一设计减少了对视觉捷径的依赖,提高了在低观测任务上的鲁棒性,且无需额外演示或修改现有架构或预训练模型。大量实验证明了其在不同VLA模型中的即插即用集成能力及持续的性能提升。例如,在LIBERO-CF上,CAG通过免训练策略将低观测任务的语言遵循准确率提升9.7%(π₀.₅指标),任务成功率提升3.6%;当与VA模型结合时,这两项指标分别进一步提升了15.5%和8.5%。在真实世界评估中,CAG平均减少了9.4%的反事实失败,并将任务成功率提高了17.2%。