See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation<br>观察、规划、回溯：面向鲁棒机器人操作的进度感知视觉-语言-动作模型<br>[摘要](abstracts/2603.09292.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

通过明确、可操作的里程碑来度量任务进度，对于实现鲁棒的机器人操作至关重要。这种进度感知能力使模型能够定位当前任务状态，预测可验证的中间状态，并在进度停滞时检测并恢复故障。为体现这一能力，我们提出了观察、规划、回溯（SPR）框架，这是一个进度感知的视觉-语言-动作系统，能够动态地将语言指令转化为一系列空间子目标。SPR通过持续的核心循环运行：观察当前状态与即将到来的里程碑，规划前往下一个二维路径点的轨迹，并通过监控与预期序列的进度差异，在失败时回溯至可恢复状态。这种闭环方法实现了无需额外训练数据或辅助模型的鲁棒错误纠正。大量实验验证了该框架的有效性、泛化能力和鲁棒性：在LIBERO基准测试中，SPR比MolmoAct基线高出5%。在具有未见指令和初始状态的挑战性LIBERO-Plus基准测试中，SPR以最小的性能下降实现了最先进的鲁棒性，超越了OpenVLA-OFT和UniVLA，展现出卓越的分布外鲁棒性。

← Back