Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning<br>停止徘徊：通过元认知推理实现高效视觉语言导航<br>[摘要](abstracts/2604.02318.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

基于基础模型的免训练视觉语言导航（VLN）智能体能够遵循指令并探索三维环境。然而，现有方法依赖于贪婪的前沿选择与被动空间记忆，导致局部振荡和冗余重访等低效行为。我们认为这源于元认知能力的缺失：智能体无法监控其探索进度、诊断策略失败或相应调整。为此，我们提出MetaNav，一种集成了空间记忆、历史感知规划与反思校正的元认知导航智能体。空间记忆构建了持久的三维语义地图；历史感知规划通过惩罚重访行为提升效率；反思校正则检测停滞状态，并利用大语言模型生成指导未来前沿选择的校正规则。在GOAT-Bench、HM3D-OVON和A-EQA数据集上的实验表明，MetaNav实现了最先进的性能，同时将视觉语言模型查询量减少了20.7%，证明了元认知推理能显著提升导航的鲁棒性与效率。

← Back