Abstract not available.
预训练视觉语言模型(VLM)的快速发展显著推动了视觉语言动作(VLA)模型的进步。然而,现有大多数端到端VLA模型仅将VLM视为多模态编码器,直接将视觉语言特征映射为低层动作。这种范式未能充分利用VLM在高层决策中的潜力,并导致训练不稳定,常常损害其丰富的语义表征能力。为应对这些局限,我们提出DIAL框架,通过可微分的潜在意图瓶颈桥接高层决策与低层运动执行。具体而言,基于VLM的System-2通过在其原生特征空间内合成潜在视觉前瞻来执行潜在世界建模;这种前瞻显式编码意图并构成结构化瓶颈。随后,轻量级System-1策略通过潜在逆动力学,将预测意图与当前观测共同解码为精确的机器人动作。为确保优化稳定性,我们采用两阶段训练范式:解耦预热阶段中,System-2学习在统一特征空间内预测潜在未来状态,而System-1在真实未来状态指导下学习运动控制;随后进行无缝的端到端联合优化。该方法使动作感知梯度能以受控方式优化VLM骨干网络,同时保留预训练知识。在RoboCasa GR1桌面基准测试中的大量实验表明,DIAL实现了新的最优性能,仅需先前方法十分之一的演示数据即可获得更优效果。此外,通过利用异构人类演示数据,DIAL学习了物理基础的操作先验知识,并在人形机器人真实场景部署中,对未见物体及新配置展现出强大的零样本泛化能力。