Abstract not available.
视觉-语言-动作(VLA)模型越来越多地整合推理机制以完成复杂的机器人操作任务。然而,现有方法存在一个关键局限性:无论是采用显式的语言推理(存在延迟和离散化问题),还是利用更具表达力的连续潜在推理,它们主要局限于静态模仿学习,限制了适应性和泛化能力。尽管在线强化学习(RL)已被引入VLA模型以实现试错探索,但当前方法仅优化原始动作空间,绕过了底层的物理推理过程。本文提出统一框架 extbf{LaST-R1},它在动作执行前集成关于物理动态的潜在思维链(CoT)推理,并搭配定制化的强化学习后训练范式。具体而言,我们提出 extbf{潜在到动作策略优化(LAPO)}——一种联合优化潜在推理过程与动作生成的新型强化学习算法。通过桥接推理与控制,LAPO改进了物理世界建模的表征能力,并增强了交互环境中的鲁棒性。此外,我们引入 extbf{自适应潜在思维链机制},使策略能根据环境复杂性动态调整推理深度。大量实验表明,LaST-R1在仅需单次监督预热的情况下,在LIBERO基准上实现了近乎完美的99.8%平均成功率,其收敛速度和性能显著超越先前最先进方法。在真实世界部署中,LAPO后训练在四个复杂任务(包括单臂和双臂设置)上相比初始预热策略取得了最高44%的性能提升。最后,LaST-R1在仿真和真实环境中均展现出强大的泛化能力。