DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models<br>DreamPlan:通过视频世界模型实现视觉语言规划器的高效强化微调<br>[摘要](abstracts/2603.16860.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

机器人操作需要复杂的常识推理能力,这是大规模视觉语言模型(VLMs)天然具备的。虽然VLMs作为零样本规划器展现出潜力,但它们在复杂现实环境(尤其是如可变形物体操作等挑战性任务)中部署时,由于缺乏对物理世界的接地理解,常导致错误累积和成功率低下。尽管强化学习(RL)可以调整这些规划器以适应特定任务动态,但通过现实交互直接微调VLMs成本极高、不安全且样本效率低。为突破这一瓶颈,我们提出了DreamPlan,一个通过视频世界模型对VLM规划器进行强化微调的新框架。DreamPlan不依赖昂贵的物理部署,而是首先利用零样本VLM收集探索性交互数据。我们证明,这些次优数据足以训练一个动作条件视频生成模型,该模型能隐式捕捉复杂的现实物理规律。随后,使用几率比策略优化(ORPO)在视频世界模型的“想象”中完全微调VLM规划器。通过利用这些虚拟部署,物理和任务特定知识被高效注入VLM。我们的结果表明,DreamPlan弥合了语义推理与物理接地之间的差距,无需大规模现实数据收集即可显著提升操作成功率。项目页面为 https://psi-lab.ai/DreamPlan/。

← Back