Recursive Belief Vision Language Model<br>递归信念视觉语言模型<br>[摘要](abstracts/2602.20659.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前视觉-语言-动作（VLA）模型在部分可观测性下的长时程操作任务中表现不佳。大多数现有方法仍依赖观测驱动，通过短上下文窗口或重复查询视觉语言模型（VLM）来执行任务，这导致任务进度丢失、感知混淆下的动作重复以及高推理延迟。语义推理本身并非长时程操作的主要瓶颈；相反，VLA模型缺乏持久且动作条件化的状态表示，并表现出有限的时序和物理推理能力，使其难以适应多阶段控制。本文提出RB-VLA，一种以信念为中心的架构，通过自监督世界模型目标进行训练，能够维护一个紧凑的潜在状态，编码任务相关历史、动态及物体交互。VLM仅被查询一次以获取高层意图，提供任务规范，而信念模块则跟踪任务进度，并在部分可观测性下实现阶段感知、因果基础的控制，无需存储原始观测数据或随时间扩展内存。信念与意图共同条件化扩散策略，以实现鲁棒的闭环执行。RB-VLA在长时程基准测试中优于先前VLA模型，在多阶段拾放和堆叠任务上分别比π0模型实现了52.5%和37.5%更高的成功率。同时，其推理延迟相较于基线模型降低高达5倍，并消除了现有VLA模型中随时间步增长的内存消耗。消融实验表明，信念模块是性能提升的主要驱动力，将成功率从32.5%提高至77.5%。这些结果证明了基于信念的状态表示在长时程VLA策略中的有效性。

← Back