Goal2Skill: Long-Horizon Manipulation with Adaptive Planning and Reflection<br>Goal2Skill：基于自适应规划与反思的长时程操作<br>[摘要](abstracts/2604.13942.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期的视觉-语言-动作（VLA）系统在具身操作中展现出强大能力。然而，现有大多数VLA策略依赖于有限的观测窗口和端到端的动作预测，这使得它们在具有部分可观测性、遮挡和多阶段依赖性的长时程、记忆依赖型任务中表现脆弱。此类任务不仅需要精确的视觉运动控制，还要求持久的记忆、自适应的任务分解以及明确的执行失败恢复能力。为应对这些局限，我们提出了一种面向长时程具身操作的双系统框架。该框架明确将高层语义推理与低层运动执行分离：高层规划器作为基于VLM的智能体模块，维护结构化任务记忆，执行目标分解、结果验证和基于错误的修正；低层执行器则实例化为基于VLA的视觉运动控制器，通过基于扩散的动作生成来执行各子任务，其生成过程以几何保持的滤波观测为条件。两个系统共同构成规划与执行间的闭环，实现了记忆感知推理、自适应重规划和鲁棒的在线恢复。在代表性RMBench任务上的实验表明，所提框架显著优于现有基线方法，平均成功率达到32.4%，而最强基线仅为9.8%。消融研究进一步证实了结构化记忆与闭环恢复机制对长时程操作的重要性。

← Back