DreamPlan: Efficient Reinforcement Fine-Tuning of Vision-Language Planners via Video World Models<br>DreamPlan：通过视频世界模型实现视觉语言规划器的高效强化微调<br>[摘要](abstracts/2603.16860.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

机器人操作需要复杂的常识推理能力，这是大规模视觉语言模型（VLMs）天然具备的。虽然VLMs作为零样本规划器展现出潜力，但它们在复杂现实环境（尤其是如可变形物体操作等挑战性任务）中部署时，由于缺乏对物理世界的接地理解，常导致错误累积和成功率低下。尽管强化学习（RL）可以调整这些规划器以适应特定任务动态，但通过现实交互直接微调VLMs成本极高、不安全且样本效率低。为突破这一瓶颈，我们提出了DreamPlan，一个通过视频世界模型对VLM规划器进行强化微调的新框架。DreamPlan不依赖昂贵的物理部署，而是首先利用零样本VLM收集探索性交互数据。我们证明，这些次优数据足以训练一个动作条件视频生成模型，该模型能隐式捕捉复杂的现实物理规律。随后，使用几率比策略优化（ORPO）在视频世界模型的“想象”中完全微调VLM规划器。通过利用这些虚拟部署，物理和任务特定知识被高效注入VLM。我们的结果表明，DreamPlan弥合了语义推理与物理接地之间的差距，无需大规模现实数据收集即可显著提升操作成功率。项目页面为 https://psi-lab.ai/DreamPlan/。

← Back