\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation<br>NaVIDA:基于逆动力学增强的视觉语言导航<br>[摘要](abstracts/2601.18188.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航(VLN)要求智能体能够理解自然语言指令,并在视觉丰富的环境中连贯地执行动作。然而,现有方法大多依赖于反应式的状态-动作映射,未能显式建模动作如何因果性地改变后续视觉观察。由于缺乏这种视觉-动作因果关系,智能体无法预测自身动作引发的视觉变化,导致行为不稳定、泛化能力弱以及轨迹上的累积误差。为解决这些问题,我们提出了NaVIDA(基于逆动力学增强的导航),这是一个统一的VLN框架,将策略学习与动作驱动的视觉动态建模及自适应执行相结合。NaVIDA通过基于动作块的逆动力学监督增强训练,以学习视觉变化与对应动作之间的因果关系。为构建这种监督并扩展有效规划范围,NaVIDA采用分层概率动作块化(HPAC)方法,将轨迹组织为多步动作块,并提供具有区分性的长程视觉变化线索。为进一步抑制推理过程中的误差累积并稳定行为,一种基于熵的引导机制自适应地设置动作块的执行范围。大量实验表明,与现有最先进方法相比,NaVIDA以更少的参数量(30亿 vs. 80亿)实现了更优的导航性能。真实世界机器人评估进一步验证了本方法的实际可行性和有效性。代码与数据将在论文录用后公开。

← Back