LaST-R1: Reinforcing Action via Adaptive Physical Latent Reasoning for VLA Models<br>LaST-R1：通过自适应物理潜在推理增强VLA模型的动作能力<br>[摘要](abstracts/2604.28192.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型越来越多地整合推理机制以完成复杂的机器人操作任务。然而，现有方法存在一个关键局限性：无论是采用显式的语言推理（存在延迟和离散化问题），还是利用更具表达力的连续潜在推理，它们主要局限于静态模仿学习，限制了适应性和泛化能力。尽管在线强化学习（RL）已被引入VLA模型以实现试错探索，但当前方法仅优化原始动作空间，绕过了底层的物理推理过程。本文提出统一框架 extbf{LaST-R1}，它在动作执行前集成关于物理动态的潜在思维链（CoT）推理，并搭配定制化的强化学习后训练范式。具体而言，我们提出 extbf{潜在到动作策略优化（LAPO）}——一种联合优化潜在推理过程与动作生成的新型强化学习算法。通过桥接推理与控制，LAPO改进了物理世界建模的表征能力，并增强了交互环境中的鲁棒性。此外，我们引入 extbf{自适应潜在思维链机制}，使策略能根据环境复杂性动态调整推理深度。大量实验表明，LaST-R1在仅需单次监督预热的情况下，在LIBERO基准上实现了近乎完美的99.8%平均成功率，其收敛速度和性能显著超越先前最先进方法。在真实世界部署中，LAPO后训练在四个复杂任务（包括单臂和双臂设置）上相比初始预热策略取得了最高44%的性能提升。最后，LaST-R1在仿真和真实环境中均展现出强大的泛化能力。

← Back