LaMP: Learning Vision-Language-Action Policies with 3D Scene Flow as Latent Motion Prior<br>LaMP：利用三维场景流作为潜在运动先验学习视觉-语言-动作策略<br>[摘要](abstracts/2603.25399.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了\textbf{LaMP}，一种双专家视觉-语言-动作框架，通过将稠密三维场景流嵌入为潜在运动先验来支持机器人操作。现有的VLA模型直接从二维语义视觉特征回归动作，迫使它们隐式学习复杂的三维物理交互。这种隐式学习策略在不熟悉的空间动态下性能会下降。LaMP通过门控交叉注意力将流匹配的\emph{运动专家}与策略预测的\emph{动作专家}对齐，以解决这一局限。具体而言，运动专家生成一步部分去噪的三维场景流，其隐藏状态在无需完整多步重建的情况下条件化动作专家。我们在LIBERO、LIBERO-Plus和SimplerEnv-WidowX仿真基准以及真实世界实验中评估了LaMP。在相同训练预算下，LaMP在LIBERO、LIBERO-Plus和SimplerEnv-WidowX基准上始终优于所评估的VLA基线，实现了报告中最高的平均成功率。在LIBERO-Plus的分布外扰动测试中，LaMP表现出更强的鲁棒性，相比先前最强基线平均提升9.7%。项目页面详见：https://summerwxk.github.io/lamp-project-page/。

← Back