Abstract not available.
视觉-语言-动作(VLA)模型使机器人能够直接根据自然语言指令执行操作任务,并日益被视为通用机器人策略的基础。然而,其在分布外(OOD)指令下的可靠性仍未得到充分探索。本文揭示了一种关键失效模式:即使语言指令与场景相矛盾,VLA策略仍会继续执行视觉上合理的动作。我们将此现象称为语言盲视,即VLA策略在动作生成过程中优先考虑视觉先验而非指令语义。为系统分析此问题,我们引入了ICBench,这是一个基于LIBERO数据集构建的诊断基准,通过注入受控的OOD指令矛盾(同时保持视觉环境不变)来探测语言-动作耦合。对三种代表性VLA架构(包括Pi0、Pi0.5和OpenVLA OFT)的评估表明,这些模型即使在逻辑上不可能的指令下仍能频繁完成任务,揭示了动作生成中存在强烈的视觉偏差。为缓解此问题,我们提出了指令引导注意力重校准(IGAR),这是一种免训练的推理时机制,通过重新平衡注意力分布来恢复语言指令的影响。IGAR无需重新训练或修改架构,可直接应用于现有VLA模型。在30个LIBERO任务上的实验表明,IGAR显著减少了在OOD矛盾指令下的错误执行,同时保持了基线任务性能。我们还在真实Franka机械臂上验证了该方法,其中IGAR有效防止了由不一致指令触发的误操作。