Abstract not available.
机器人操作需要复杂的常识推理能力,这是大规模视觉语言模型(VLMs)天然具备的。虽然VLMs作为零样本规划器展现出潜力,但它们在复杂现实环境(尤其是如可变形物体操作等挑战性任务)中部署时,由于缺乏对物理世界的接地理解,常导致错误累积和成功率低下。尽管强化学习(RL)可以调整这些规划器以适应特定任务动态,但通过现实交互直接微调VLMs成本极高、不安全且样本效率低。为突破这一瓶颈,我们提出了DreamPlan,一个通过视频世界模型对VLM规划器进行强化微调的新框架。DreamPlan不依赖昂贵的物理部署,而是首先利用零样本VLM收集探索性交互数据。我们证明,这些次优数据足以训练一个动作条件视频生成模型,该模型能隐式捕捉复杂的现实物理规律。随后,使用几率比策略优化(ORPO)在视频世界模型的“想象”中完全微调VLM规划器。通过利用这些虚拟部署,物理和任务特定知识被高效注入VLM。我们的结果表明,DreamPlan弥合了语义推理与物理接地之间的差距,无需大规模现实数据收集即可显著提升操作成功率。项目页面为 https://psi-lab.ai/DreamPlan/。