DecoVLN: Decoupling Observation, Reasoning, and Correction for Vision-and-Language Navigation<br>DecoVLN:面向视觉与语言导航的观测、推理与纠错解耦框架<br>[摘要](abstracts/2603.13133.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉与语言导航任务要求智能体遵循长时程指令并在复杂三维环境中进行导航。然而,现有方法面临两大挑战:构建有效的长期记忆库以及克服误差累积问题。为解决这些问题,我们提出了DecoVLN,一个专为长时程导航中鲁棒的流式感知与闭环控制而设计的有效框架。首先,我们将长期记忆构建形式化为一个优化问题,并引入自适应精炼机制,该机制通过迭代优化一个统一的评分函数,从历史候选池中选择关键帧。该函数联合平衡三个关键标准:与指令的语义相关性、所选记忆的视觉多样性以及历史轨迹的时间覆盖度。其次,为缓解误差累积,我们提出了一种状态-动作对级别的纠错微调策略。通过利用状态间的测地距离来精确量化与专家轨迹的偏差,智能体在可信区域内收集高质量的状态-动作对,同时过滤掉相关性低的污染数据。这提升了纠错的效率与稳定性。大量实验验证了DecoVLN的有效性,我们已将其部署于真实世界环境中。

← Back