Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation<br>闭环批评者：一种用于鲁棒长程操作的三系统视觉语言动作框架<br>[摘要](abstracts/2603.05185.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在视觉机器人操作中，平衡高层语义推理与低层反应控制仍是一个核心挑战。视觉语言模型（VLMs）擅长认知规划，但其推理延迟阻碍了实时执行；而快速的视觉语言动作（VLA）模型往往缺乏处理复杂长程任务所需的语义深度。为弥合这一差距，我们引入了“闭环批评者”——一种由动态VLM-专家调度驱动的自适应分层框架。其核心是一个仿生的三系统架构：一个用于全局推理的VLM大脑、一个用于反应执行的VLA小脑，以及一个轻量级视觉批评者。通过持续监控工作空间，批评者动态分配控制权：对于常规子任务，它通过VLA维持快速闭环执行；当检测到执行异常（如任务停滞或失败）时，则自适应地触发VLM进行重新规划。此外，该架构无缝整合了类人启发式规则，以直观地打破无限重试循环。这种基于视觉的调度最大限度地减少了昂贵的VLM查询，同时显著增强了系统在分布外（OOD）场景下的鲁棒性和自主性。在具有挑战性的长程操作基准测试中进行的全面实验表明，我们的方法实现了最先进的性能。

← Back