Jump-Start Reinforcement Learning with Vision-Language-Action Regularization<br>利用视觉-语言-动作正则化实现强化学习的快速启动<br>[摘要](abstracts/2604.13733.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

强化学习(RL)能够实现机器人操作的高频闭环控制,但由于探索效率低下和信用分配不佳,在稀疏或不完善奖励的长时程任务中难以扩展。视觉-语言-动作(VLA)模型通过大规模多模态预训练提供通用任务级推理,但现有局限阻碍了其在快速精确操作中的直接应用。本文提出视觉-语言-动作快速启动(VLAJS)方法,通过将稀疏VLA指导与在线策略RL相结合,以提升探索和学习效率。VLAJS将VLA视为高层动作建议的临时来源,用于引导早期探索并改善信用分配,同时保留RL基于状态的高频控制特性。该方法通过方向性动作一致性正则化增强近端策略优化(PPO),在训练初期将RL智能体的动作与VLA指导进行软对齐,无需强制严格模仿、依赖演示或持续查询教师策略。VLA指导以稀疏方式应用并随时间衰减,使智能体能够在线适应并最终超越指导策略。我们在六项具有挑战性的仿真操作任务(提升、抓放、钉孔重定向、钉孔插入、戳动和推动)上评估VLAJS,并在真实Franka Panda机器人上验证了部分任务。VLAJS在样本效率上持续优于PPO和蒸馏式基线方法,在多项任务中减少超过50%的环境交互需求。真实世界实验展示了零仿真到现实迁移能力,以及在杂乱环境、物体变化和外部干扰下的鲁棒执行性能。

← Back