Abstract not available.
通过明确、可操作的里程碑来度量任务进度,对于实现鲁棒的机器人操作至关重要。这种进度感知能力使模型能够定位当前任务状态,预测可验证的中间状态,并在进度停滞时检测并恢复故障。为体现这一能力,我们提出了观察、规划、回溯(SPR)框架,这是一个进度感知的视觉-语言-动作系统,能够动态地将语言指令转化为一系列空间子目标。SPR通过持续的核心循环运行:观察当前状态与即将到来的里程碑,规划前往下一个二维路径点的轨迹,并通过监控与预期序列的进度差异,在失败时回溯至可恢复状态。这种闭环方法实现了无需额外训练数据或辅助模型的鲁棒错误纠正。大量实验验证了该框架的有效性、泛化能力和鲁棒性:在LIBERO基准测试中,SPR比MolmoAct基线高出5%。在具有未见指令和初始状态的挑战性LIBERO-Plus基准测试中,SPR以最小的性能下降实现了最先进的鲁棒性,超越了OpenVLA-OFT和UniVLA,展现出卓越的分布外鲁棒性。