RoboStream: Weaving Spatio-Temporal Reasoning with Memory in Vision-Language Models for Robotics<br>RoboStream：将时空推理与记忆融入机器人视觉语言模型<br>[摘要](abstracts/2603.12939.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

实现可靠的长时程机器人操作是迈向开放世界具身智能的关键一步。然而，基于视觉语言模型（VLM）的规划器将每个步骤视为孤立的观测到动作的映射，迫使它们在每个决策点从原始像素重新推断场景几何，同时无法感知先前动作如何重塑了环境。尽管在短时程任务中表现强劲，这些系统缺乏持久几何锚定和动作触发状态转换记忆所需的时空推理能力。若无持续的状态追踪，感知误差会在执行过程中不断累积，暂时被遮挡的物体会被灾难性地遗忘，这些叠加的失败导致前提条件违反，并连锁影响后续步骤。相比之下，人类维持着一种持久的心理模型，能够持续追踪交互过程中的空间关系和动作后果，而非在每一时刻重新构建。受人类这种具备持久记忆的因果时空推理能力启发，我们提出了RoboStream，一个无需训练即可实现几何锚定的框架。该框架通过时空融合令牌（STF-Tokens）将视觉证据绑定到三维几何属性以实现持久物体定位，并借助因果时空图（CSTG）记录跨步骤的动作触发状态转换以维持因果连续性。这一设计使规划器能够追踪因果链并在遮挡情况下保持物体恒存性，无需额外训练或微调。RoboStream在长时程RLBench任务中达到90.5%的准确率，在具有挑战性的真实世界积木搭建任务中达到44.4%，而SoFar和VoxPoser均仅得11.1%，这表明时空推理与因果记忆是可靠长时程操作中缺失的关键组件。

← Back