World-Gymnast: Training Robots with Reinforcement Learning in a World Model<br>世界体操家：在世界模型中通过强化学习训练机器人<br>[摘要](abstracts/2602.02454.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

机器人通过与物理世界交互进行学习，从根本上受到物理交互成本的制约。两种替代方案——基于专家演示的监督微调（SFT）和基于软件模拟器的强化学习（RL）——分别受限于可用专家数据的数量以及操作任务中的仿真到现实差距。随着近期从真实世界视频-动作数据中学习的世界模型的出现，我们提出一个问题：在世界模型中训练策略是否比监督学习或软件仿真更能有效提升真实机器人的性能。我们提出了World-Gymnast方法，该方法通过在动作条件化的视频世界模型中展开策略，并利用视觉语言模型（VLM）对展开过程进行奖励，从而对视觉语言动作（VLA）策略进行强化学习微调。在Bridge机器人实验平台上，World-Gymnast的性能比SFT最高提升18倍，比软件模拟器最高提升2倍。更重要的是，World-Gymnast展示了基于世界模型的强化学习的引人注目的能力，包括在世界模型中对多样化语言指令和新场景进行训练、在新场景中进行测试时训练，以及在线迭代优化世界模型和策略。我们的结果表明，学习世界模型并在云端训练机器人策略，可能是弥合仅能在演示中工作的机器人与能在任何家庭中工作的机器人之间差距的关键。

← Back