DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA<br>DIAL：通过潜在世界建模实现意图与动作解耦的端到端视觉语言动作模型<br>[摘要](abstracts/2603.29844.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

预训练视觉语言模型（VLM）的快速发展显著推动了视觉语言动作（VLA）模型的进步。然而，现有大多数端到端VLA模型仅将VLM视为多模态编码器，直接将视觉语言特征映射为低层动作。这种范式未能充分利用VLM在高层决策中的潜力，并导致训练不稳定，常常损害其丰富的语义表征能力。为应对这些局限，我们提出DIAL框架，通过可微分的潜在意图瓶颈桥接高层决策与低层运动执行。具体而言，基于VLM的System-2通过在其原生特征空间内合成潜在视觉前瞻来执行潜在世界建模；这种前瞻显式编码意图并构成结构化瓶颈。随后，轻量级System-1策略通过潜在逆动力学，将预测意图与当前观测共同解码为精确的机器人动作。为确保优化稳定性，我们采用两阶段训练范式：解耦预热阶段中，System-2学习在统一特征空间内预测潜在未来状态，而System-1在真实未来状态指导下学习运动控制；随后进行无缝的端到端联合优化。该方法使动作感知梯度能以受控方式优化VLM骨干网络，同时保留预训练知识。在RoboCasa GR1桌面基准测试中的大量实验表明，DIAL实现了新的最优性能，仅需先前方法十分之一的演示数据即可获得更优效果。此外，通过利用异构人类演示数据，DIAL学习了物理基础的操作先验知识，并在人形机器人真实场景部署中，对未见物体及新配置展现出强大的零样本泛化能力。

← Back