Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning<br>停止徘徊:通过元认知推理实现高效视觉语言导航<br>[摘要](abstracts/2604.02318.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

基于基础模型的免训练视觉语言导航(VLN)智能体能够遵循指令并探索三维环境。然而,现有方法依赖于贪婪的前沿选择与被动空间记忆,导致局部振荡和冗余重访等低效行为。我们认为这源于元认知能力的缺失:智能体无法监控其探索进度、诊断策略失败或相应调整。为此,我们提出MetaNav,一种集成了空间记忆、历史感知规划与反思校正的元认知导航智能体。空间记忆构建了持久的三维语义地图;历史感知规划通过惩罚重访行为提升效率;反思校正则检测停滞状态,并利用大语言模型生成指导未来前沿选择的校正规则。在GOAT-Bench、HM3D-OVON和A-EQA数据集上的实验表明,MetaNav实现了最先进的性能,同时将视觉语言模型查询量减少了20.7%,证明了元认知推理能显著提升导航的鲁棒性与效率。

← Back