Abstract not available.
真实机器人数据采集的高成本使得机器人仿真成为可扩展的评估与数据生成平台。然而,现有基准大多集中于如抓取放置等简单操作任务,未能捕捉现实世界任务的非马尔可夫特性及关节物体交互的复杂性。为突破此局限,我们提出了RuleSafe——一个基于可扩展大语言模型辅助仿真框架的新型关节操作基准。RuleSafe包含具有多样化解锁机制(如钥匙锁、密码锁和逻辑锁)的保险箱,这些机制需要不同的多阶段推理与操作策略。这些由大语言模型生成的规则产生了非马尔可夫且长视界的任务,要求进行时序建模和基于记忆的推理。我们进一步提出VQ-Memory,这是一种紧凑且结构化的时序表征方法,它利用向量量化变分自编码器将历史本体感知状态编码为离散潜在标记。该表征在过滤低级噪声的同时保留了高级任务阶段上下文,提供了轻量级且鲁棒的时序线索,并能与现有的视觉-语言-动作模型兼容。在先进视觉-语言-动作模型和扩散策略上的大量实验表明,VQ-Memory持续提升了长视界规划能力,增强了对未见配置的泛化性,并以更低的计算成本实现了更高效的操作。项目页面:vqmemory.github.io