Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration<br>通过免训练注意力重校准恢复视觉语言动作模型的语言基础<br>[摘要](abstracts/2603.06001.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型使机器人能够直接根据自然语言指令执行操作任务，并日益被视为通用机器人策略的基础。然而，其在分布外（OOD）指令下的可靠性仍未得到充分探索。本文揭示了一种关键失效模式：即使语言指令与场景相矛盾，VLA策略仍会继续执行视觉上合理的动作。我们将此现象称为语言盲视，即VLA策略在动作生成过程中优先考虑视觉先验而非指令语义。为系统分析此问题，我们引入了ICBench，这是一个基于LIBERO数据集构建的诊断基准，通过注入受控的OOD指令矛盾（同时保持视觉环境不变）来探测语言-动作耦合。对三种代表性VLA架构（包括Pi0、Pi0.5和OpenVLA OFT）的评估表明，这些模型即使在逻辑上不可能的指令下仍能频繁完成任务，揭示了动作生成中存在强烈的视觉偏差。为缓解此问题，我们提出了指令引导注意力重校准（IGAR），这是一种免训练的推理时机制，通过重新平衡注意力分布来恢复语言指令的影响。IGAR无需重新训练或修改架构，可直接应用于现有VLA模型。在30个LIBERO任务上的实验表明，IGAR显著减少了在OOD矛盾指令下的错误执行，同时保持了基线任务性能。我们还在真实Franka机械臂上验证了该方法，其中IGAR有效防止了由不一致指令触发的误操作。

← Back