Jump-Start Reinforcement Learning with Vision-Language-Action Regularization<br>利用视觉-语言-动作正则化实现强化学习的快速启动<br>[摘要](abstracts/2604.13733.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

强化学习（RL）能够实现机器人操作的高频闭环控制，但由于探索效率低下和信用分配不佳，在稀疏或不完善奖励的长时程任务中难以扩展。视觉-语言-动作（VLA）模型通过大规模多模态预训练提供通用任务级推理，但现有局限阻碍了其在快速精确操作中的直接应用。本文提出视觉-语言-动作快速启动（VLAJS）方法，通过将稀疏VLA指导与在线策略RL相结合，以提升探索和学习效率。VLAJS将VLA视为高层动作建议的临时来源，用于引导早期探索并改善信用分配，同时保留RL基于状态的高频控制特性。该方法通过方向性动作一致性正则化增强近端策略优化（PPO），在训练初期将RL智能体的动作与VLA指导进行软对齐，无需强制严格模仿、依赖演示或持续查询教师策略。VLA指导以稀疏方式应用并随时间衰减，使智能体能够在线适应并最终超越指导策略。我们在六项具有挑战性的仿真操作任务（提升、抓放、钉孔重定向、钉孔插入、戳动和推动）上评估VLAJS，并在真实Franka Panda机器人上验证了部分任务。VLAJS在样本效率上持续优于PPO和蒸馏式基线方法，在多项任务中减少超过50%的环境交互需求。真实世界实验展示了零仿真到现实迁移能力，以及在杂乱环境、物体变化和外部干扰下的鲁棒执行性能。

← Back