Abstract not available.
我们提出了\textbf{LaMP},一种双专家视觉-语言-动作框架,通过将稠密三维场景流嵌入为潜在运动先验来支持机器人操作。现有的VLA模型直接从二维语义视觉特征回归动作,迫使它们隐式学习复杂的三维物理交互。这种隐式学习策略在不熟悉的空间动态下性能会下降。LaMP通过门控交叉注意力将流匹配的\emph{运动专家}与策略预测的\emph{动作专家}对齐,以解决这一局限。具体而言,运动专家生成一步部分去噪的三维场景流,其隐藏状态在无需完整多步重建的情况下条件化动作专家。我们在LIBERO、LIBERO-Plus和SimplerEnv-WidowX仿真基准以及真实世界实验中评估了LaMP。在相同训练预算下,LaMP在LIBERO、LIBERO-Plus和SimplerEnv-WidowX基准上始终优于所评估的VLA基线,实现了报告中最高的平均成功率。在LIBERO-Plus的分布外扰动测试中,LaMP表现出更强的鲁棒性,相比先前最强基线平均提升9.7%。项目页面详见:https://summerwxk.github.io/lamp-project-page/。