Abstract not available.
视觉语言导航要求智能体通过遵循自然语言指令在三维环境中进行导航。尽管近期的视频大语言模型已显著推动了该领域的发展,但在长场景任务中,它们仍极易受到状态漂移的影响。这种情况下,智能体的内部状态会逐渐偏离真实的任务执行状态,导致漫无目的的徘徊,并无法执行指令中的关键动作。我们将此失败归因于两种不同的认知缺陷:进度漂移(智能体无法区分已完成与待完成的子目标)和记忆漂移(智能体的历史表征退化,使其难以追踪已访问的地标)。本文提出一种双重锚定框架,旨在显式地锚定指令进度与历史表征。首先,为应对进度漂移,我们引入指令进度锚定机制,监督智能体生成结构化文本标记,以清晰划分已完成与待完成的子目标。其次,为缓解记忆漂移,我们提出记忆地标锚定方法,利用地标中心世界模型回顾性地预测由Segment Anything模型提取的以对象为中心的嵌入表示,迫使智能体显式验证过往观察并保留已访问地标的独特表征。为支持该框架,我们构建了两个大规模数据集:包含360万条带有显式进度描述的样本,以及93.7万条用于回顾性验证的接地地标数据。在仿真和真实环境中的大量实验证明了我们方法的优越性,其成功率提升了15.2%,在长视距轨迹上更实现了24.7%的显著增益。为促进进一步研究,我们将公开代码、数据生成流程及所收集的数据集。