TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models<br>TAG：面向视觉-语言-动作模型中稳定以对象为中心推理的目标无关引导<br>[摘要](abstracts/2603.24584.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）策略在将语言指令和视觉观察映射到机器人动作方面取得了显著进展，但在存在干扰物的杂乱场景中，其可靠性会下降。通过分析失败案例，我们发现许多错误并非源于不可行的运动，而是由实例级定位失败引起的：策略常生成看似合理的抓取轨迹，却略微偏离目标或甚至错误地作用于其他对象实例。为解决这一问题，我们提出了TAG（目标无关引导），一种简单的推理时引导机制，旨在显式减少VLA策略中由干扰物和外观引起的偏差。受无分类器引导（CFG）启发，TAG对比了原始观察和对象擦除观察下的策略预测，并利用其差异作为残差引导信号，以增强决策过程中对象证据的影响。TAG无需修改策略架构，且能以最小的训练和推理改动与现有VLA策略集成。我们在标准操作基准测试（包括LIBERO、LIBERO-Plus和VLABench）上评估了TAG，结果显示其能持续提升在杂乱环境下的鲁棒性，并减少近失误和错误对象执行的情况。

← Back