LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning<br>LatentPilot：通过潜在视觉推理前瞻梦境，实现场景感知的视觉与语言导航<br>[摘要](abstracts/2603.29165.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的视觉与语言导航（VLN）模型主要基于过去和当前的视觉观测进行推理，而很大程度上忽略了由动作引发的未来视觉动态。因此，这些模型往往缺乏对动作与视觉世界变化之间因果关系的有效理解，限制了其决策的鲁棒性。相比之下，人类能够利用动作动态的因果关系来想象近期未来，从而提升对环境理解和导航选择的能力。受此启发，我们提出了LatentPilot，这是一种新范式，在训练过程中利用未来观测作为宝贵的数据源来学习动作条件化的视觉动态，同时在推理时无需访问未来帧。具体而言，我们提出了一种飞轮式训练机制，迭代收集策略轨迹并重新训练模型，以更好地匹配智能体的行为分布，当智能体偏离过度时触发专家接管。LatentPilot进一步在没有显式监督的情况下学习视觉潜在标记；这些潜在标记在连续的潜在空间中全局关注，并在步骤间传递，既作为当前输出也作为下一输入，从而使智能体能够前瞻并推理动作如何影响后续观测。在R2R-CE、RxR-CE和R2R-PE基准测试中，实验取得了新的最先进结果，跨多样环境的真实机器人测试也证明了LatentPilot在场景中对环境-动作动态的卓越理解。项目页面：https://abdd.top/latentpilot/

← Back