Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation<br>闭环批评者:一种用于鲁棒长程操作的三系统视觉语言动作框架<br>[摘要](abstracts/2603.05185.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在视觉机器人操作中,平衡高层语义推理与低层反应控制仍是一个核心挑战。视觉语言模型(VLMs)擅长认知规划,但其推理延迟阻碍了实时执行;而快速的视觉语言动作(VLA)模型往往缺乏处理复杂长程任务所需的语义深度。为弥合这一差距,我们引入了“闭环批评者”——一种由动态VLM-专家调度驱动的自适应分层框架。其核心是一个仿生的三系统架构:一个用于全局推理的VLM大脑、一个用于反应执行的VLA小脑,以及一个轻量级视觉批评者。通过持续监控工作空间,批评者动态分配控制权:对于常规子任务,它通过VLA维持快速闭环执行;当检测到执行异常(如任务停滞或失败)时,则自适应地触发VLM进行重新规划。此外,该架构无缝整合了类人启发式规则,以直观地打破无限重试循环。这种基于视觉的调度最大限度地减少了昂贵的VLM查询,同时显著增强了系统在分布外(OOD)场景下的鲁棒性和自主性。在具有挑战性的长程操作基准测试中进行的全面实验表明,我们的方法实现了最先进的性能。

← Back