Long-Horizon Manipulation via Trace-Conditioned VLA Planning<br>基于轨迹条件视觉-语言-动作规划的长程操作<br>[摘要](abstracts/2604.21924.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

长程操作对视觉-语言-动作策略仍具挑战：实际任务为多步骤、依赖进度且易因复合执行误差而脆弱。我们提出LoHo-Manip，一种模块化框架，通过专用任务管理视觉-语言模型将短程VLA执行扩展至长程指令跟随。管理器与执行器解耦，并以滚动时域方式调用：基于当前观测，它预测具有进度感知的剩余计划，该计划结合（i）子任务序列（含显式的已完成与剩余划分，作为轻量语言记忆）以及（ii）视觉轨迹（一种紧凑的2D关键点轨迹提示，指定下一步去向与趋近目标）。执行器VLA适应于以渲染轨迹为条件，从而将长程决策转化为通过跟随轨迹的重复局部控制。关键在于，每一步预测剩余计划形成隐式闭环：失败步骤在后续输出中持续存在，轨迹据此更新，实现自动延续与重新规划，无需手工设计的恢复逻辑或脆弱的视觉历史缓冲区。涵盖具身规划、长程推理、轨迹预测以及仿真与真实Franka机器人上的端到端操作的大量实验表明，该方法在长程成功率、鲁棒性及分布外泛化方面取得显著提升。项目页面：https://www.liuisabella.com/LoHoManip

← Back