Abstract not available.
视觉语言导航要求具身智能体理解自然语言指令并在复杂的连续三维环境中行进。然而,主流的模仿学习范式存在暴露偏差问题,即推理过程中的微小偏离会导致误差累积。尽管DAgger类方法试图通过纠正错误状态来缓解此问题,但我们发现一个关键局限:指令-状态失配。强制智能体从偏离路径的状态学习恢复动作,常会产生与原指令语义冲突的监督信号。针对这些挑战,我们提出BudVLN在线框架,该框架通过构建与当前状态分布匹配的监督信号,从策略滚动中学习。BudVLN通过反事实重锚定与决策条件监督合成实现回溯修正,利用测地线预言机合成源自有效历史状态的矫正轨迹,确保语义一致性。在标准R2R-CE和RxR-CE基准测试上的实验表明,BudVLN能持续缓解分布偏移,并在成功率和SPL指标上均达到最优性能。