When Vision Overrides Language: Evaluating and Mitigating Counterfactual Failures in VLAs<br>当视觉凌驾于语言之上：评估与缓解视觉语言动作模型中的反事实失败<br>[摘要](abstracts/2602.17659.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作模型（VLAs）有望将语言指令落地到机器人控制中，但在实践中往往无法忠实地遵循语言指令。当面对缺乏强场景特定监督的指令时，VLAs会遭受反事实失败：它们基于数据集偏见诱导的视觉捷径采取行动，反复执行已习得的行为，并选择训练中频繁出现的对象，而忽略语言意图。为系统研究此问题，我们引入了LIBERO-CF——首个针对VLAs的反事实基准测试，通过在视觉上合理的LIBERO布局中分配替代指令来评估语言遵循能力。我们的评估表明，反事实失败在现有最先进的VLAs中普遍存在且尚未得到充分探索。我们提出了反事实动作引导（CAG），一种简单而有效的双分支推理方案，能显式地正则化VLAs中的语言条件。CAG将标准VLA策略与无语言条件的视觉-动作（VA）模块相结合，实现了动作选择过程中的反事实比较。这一设计减少了对视觉捷径的依赖，提高了在低观测任务上的鲁棒性，且无需额外演示或修改现有架构或预训练模型。大量实验证明了其在不同VLA模型中的即插即用集成能力及持续的性能提升。例如，在LIBERO-CF上，CAG通过免训练策略将低观测任务的语言遵循准确率提升9.7%（π₀.₅指标），任务成功率提升3.6%；当与VA模型结合时，这两项指标分别进一步提升了15.5%和8.5%。在真实世界评估中，CAG平均减少了9.4%的反事实失败，并将任务成功率提高了17.2%。

← Back