Abstract not available.
长程操作对视觉-语言-动作策略仍具挑战:实际任务为多步骤、依赖进度且易因复合执行误差而脆弱。我们提出LoHo-Manip,一种模块化框架,通过专用任务管理视觉-语言模型将短程VLA执行扩展至长程指令跟随。管理器与执行器解耦,并以滚动时域方式调用:基于当前观测,它预测具有进度感知的剩余计划,该计划结合(i)子任务序列(含显式的已完成与剩余划分,作为轻量语言记忆)以及(ii)视觉轨迹(一种紧凑的2D关键点轨迹提示,指定下一步去向与趋近目标)。执行器VLA适应于以渲染轨迹为条件,从而将长程决策转化为通过跟随轨迹的重复局部控制。关键在于,每一步预测剩余计划形成隐式闭环:失败步骤在后续输出中持续存在,轨迹据此更新,实现自动延续与重新规划,无需手工设计的恢复逻辑或脆弱的视觉历史缓冲区。涵盖具身规划、长程推理、轨迹预测以及仿真与真实Franka机器人上的端到端操作的大量实验表明,该方法在长程成功率、鲁棒性及分布外泛化方面取得显著提升。项目页面:https://www.liuisabella.com/LoHoManip