Abstract not available.
许多灵巧操作任务本质上是非马尔可夫的,但在近期兴起的视觉-语言-动作(VLA)范式研究中,这一事实却鲜受关注。尽管现有VLA模型成功地将互联网规模的语义理解引入机器人领域,但它们主要是“无状态”的,难以应对依赖记忆的长时程任务。本研究探索了一种通过融入语言便签来赋予VLA空间与时间记忆的方法。该便签使模型能够记忆任务特定信息(如物体位置),并支持其跟踪计划及在该计划内实现子目标的进度。我们在ClevrSkills环境中的记忆依赖任务子集、MemoryBench以及一项具有挑战性的真实世界拾放任务上评估了该方法。结果表明,语言便签的融入显著提升了非循环与循环模型在这些任务上的泛化能力。