Abstract not available.
视觉-语言-动作(VLA)模型通过强大的视觉-语言先验知识推动了机器人控制的发展。然而,现有VLA模型主要将预训练视为监督行为克隆,忽视了机器人学习的本质——一个需要理解时序任务进度的目标达成过程。我们提出PRTS(原初推理与任务系统),这是一个通过目标条件强化学习重新定义预训练的VLA基础模型。通过将语言指令视为目标并采用对比强化学习,PRTS学习了一个统一的嵌入空间,其中状态-动作与目标嵌入的内积近似于对数折扣目标占据度——即从当前状态-动作达到语言指定目标的概率,从而在静态语义匹配之外定量评估物理可行性。PRTS直接从离线轨迹中提取这种稠密的目标可达性监督信号,无需奖励标注,并通过角色感知因果掩码将其融入VLM骨干网络,相比普通行为克隆仅有可忽略的额外开销。这一范式赋予高级推理系统内在的目标可达性意识,弥合了语义推理与时序任务进度之间的鸿沟,并进一步有利于目标条件动作预测。在涵盖多样化操作和具身推理数据的167B token上预训练后,PRTS在LIBERO、LIBERO-Pro、LIBERO-Plus、SimplerEnv以及包含14个复杂任务的真实世界测试集上达到了最先进性能,尤其在长时域、高接触和零样本新指令设定中取得显著提升,证实了注入目标可达性意识显著提升了通用机器人基础策略的执行成功率和长时域规划能力。