From Knowing to Doing Precisely: A General Self-Correction and Termination Framework for VLA models<br>从精确认知到精准执行：面向视觉语言动作模型的通用自校正与终止框架<br>[摘要](abstracts/2602.01811.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管面向具身智能体的视觉语言动作（VLA）模型集成了感知、推理与控制能力，但仍受限于两大关键弱点：其一，在抓取任务中，语言模型生成的动作标记常与目标对象存在细微的空间偏差，导致抓取失败；其二，模型缺乏可靠的任务完成识别能力，引发冗余动作及频繁的超时错误。为应对这些挑战并提升鲁棒性，我们提出了一种轻量级、无需训练的框架VLA-SCT。该框架作为自校正控制循环运行，结合了数据驱动的动作优化与基于条件的终止逻辑。因此，相较于基线方法，我们的方案在LIBERO基准测试的所有数据集中均实现了稳定提升，显著提高了精细操作任务的成功率，并确保任务准确完成，从而推动更可靠的VLA智能体在复杂非结构化环境中的部署。

← Back