\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation<br>NaVIDA：基于逆动力学增强的视觉语言导航<br>[摘要](abstracts/2601.18188.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）要求智能体能够理解自然语言指令，并在视觉丰富的环境中连贯地执行动作。然而，现有方法大多依赖于反应式的状态-动作映射，未能显式建模动作如何因果性地改变后续视觉观察。由于缺乏这种视觉-动作因果关系，智能体无法预测自身动作引发的视觉变化，导致行为不稳定、泛化能力弱以及轨迹上的累积误差。为解决这些问题，我们提出了NaVIDA（基于逆动力学增强的导航），这是一个统一的VLN框架，将策略学习与动作驱动的视觉动态建模及自适应执行相结合。NaVIDA通过基于动作块的逆动力学监督增强训练，以学习视觉变化与对应动作之间的因果关系。为构建这种监督并扩展有效规划范围，NaVIDA采用分层概率动作块化（HPAC）方法，将轨迹组织为多步动作块，并提供具有区分性的长程视觉变化线索。为进一步抑制推理过程中的误差累积并稳定行为，一种基于熵的引导机制自适应地设置动作块的执行范围。大量实验表明，与现有最先进方法相比，NaVIDA以更少的参数量（30亿 vs. 80亿）实现了更优的导航性能。真实世界机器人评估进一步验证了本方法的实际可行性和有效性。代码与数据将在论文录用后公开。

← Back