Abstract not available.
当前视觉-语言-动作(VLA)模型在部分可观测性下的长时程操作任务中表现不佳。大多数现有方法仍依赖观测驱动,通过短上下文窗口或重复查询视觉语言模型(VLM)来执行任务,这导致任务进度丢失、感知混淆下的动作重复以及高推理延迟。语义推理本身并非长时程操作的主要瓶颈;相反,VLA模型缺乏持久且动作条件化的状态表示,并表现出有限的时序和物理推理能力,使其难以适应多阶段控制。本文提出RB-VLA,一种以信念为中心的架构,通过自监督世界模型目标进行训练,能够维护一个紧凑的潜在状态,编码任务相关历史、动态及物体交互。VLM仅被查询一次以获取高层意图,提供任务规范,而信念模块则跟踪任务进度,并在部分可观测性下实现阶段感知、因果基础的控制,无需存储原始观测数据或随时间扩展内存。信念与意图共同条件化扩散策略,以实现鲁棒的闭环执行。RB-VLA在长时程基准测试中优于先前VLA模型,在多阶段拾放和堆叠任务上分别比π0模型实现了52.5%和37.5%更高的成功率。同时,其推理延迟相较于基线模型降低高达5倍,并消除了现有VLA模型中随时间步增长的内存消耗。消融实验表明,信念模块是性能提升的主要驱动力,将成功率从32.5%提高至77.5%。这些结果证明了基于信念的状态表示在长时程VLA策略中的有效性。