ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries<br>ReMem-VLA:通过双层级循环查询赋能具有记忆能力的视觉-语言-动作模型<br>[摘要](abstracts/2603.12942.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

用于闭环机器人控制的视觉-语言-动作(VLA)模型通常基于马尔可夫假设构建,这使其在需要历史上下文的任务中容易出错。为融入记忆能力,现有VLA模型要么从记忆库中检索(可能受干扰项误导),要么扩展帧窗口(其固定时间跨度仍限制长期记忆)。本文提出ReMem-VLA,一种配备两组可学习查询的循环记忆VLA模型:帧级循环记忆查询用于在连续帧间传递信息以支持短期记忆,块级循环记忆查询用于在时间块间携带上下文以实现长期记忆。这些查询通过端到端训练来聚合和维护随时间推移的相关上下文,隐式指导模型决策而无需额外训练或推理成本。此外,为增强视觉记忆,我们引入过去观测预测作为辅助训练目标。通过大量以记忆为中心的仿真和真实机器人实验,我们证明ReMem-VLA在空间、序列、事件、时间和视觉记忆等多个维度上展现出强大的记忆能力。ReMem-VLA显著优于无记忆VLA基线模型π0.5和OpenVLA-OFT,并在依赖记忆的任务上大幅超越MemoryVLA。

← Back