ReMem-VLA: Empowering Vision-Language-Action Model with Memory via Dual-Level Recurrent Queries<br>ReMem-VLA：通过双层级循环查询赋能具有记忆能力的视觉-语言-动作模型<br>[摘要](abstracts/2603.12942.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

用于闭环机器人控制的视觉-语言-动作（VLA）模型通常基于马尔可夫假设构建，这使其在需要历史上下文的任务中容易出错。为融入记忆能力，现有VLA模型要么从记忆库中检索（可能受干扰项误导），要么扩展帧窗口（其固定时间跨度仍限制长期记忆）。本文提出ReMem-VLA，一种配备两组可学习查询的循环记忆VLA模型：帧级循环记忆查询用于在连续帧间传递信息以支持短期记忆，块级循环记忆查询用于在时间块间携带上下文以实现长期记忆。这些查询通过端到端训练来聚合和维护随时间推移的相关上下文，隐式指导模型决策而无需额外训练或推理成本。此外，为增强视觉记忆，我们引入过去观测预测作为辅助训练目标。通过大量以记忆为中心的仿真和真实机器人实验，我们证明ReMem-VLA在空间、序列、事件、时间和视觉记忆等多个维度上展现出强大的记忆能力。ReMem-VLA显著优于无记忆VLA基线模型π0.5和OpenVLA-OFT，并在依赖记忆的任务上大幅超越MemoryVLA。

← Back