Abstract not available.
尽管面向具身智能体的视觉语言动作(VLA)模型集成了感知、推理与控制能力,但仍受限于两大关键弱点:其一,在抓取任务中,语言模型生成的动作标记常与目标对象存在细微的空间偏差,导致抓取失败;其二,模型缺乏可靠的任务完成识别能力,引发冗余动作及频繁的超时错误。为应对这些挑战并提升鲁棒性,我们提出了一种轻量级、无需训练的框架VLA-SCT。该框架作为自校正控制循环运行,结合了数据驱动的动作优化与基于条件的终止逻辑。因此,相较于基线方法,我们的方案在LIBERO基准测试的所有数据集中均实现了稳定提升,显著提高了精细操作任务的成功率,并确保任务准确完成,从而推动更可靠的VLA智能体在复杂非结构化环境中的部署。