CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval<br>CMMR-VLN:基于持续多模态记忆检索的视觉与语言导航<br>[摘要](abstracts/2603.07997.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大型语言模型(LLMs)已被引入视觉与语言导航(VLN)领域以提升指令理解与泛化能力,但现有基于LLM的VLN方法缺乏选择性回忆并利用相关先验经验来辅助导航任务的能力,这限制了其在长视野和陌生场景中的表现。本文提出CMMR-VLN(基于持续多模态记忆检索的VLN),这是一种赋予LLM智能体结构化记忆与反思能力的VLN框架。具体而言,CMMR-VLN构建了一个以全景视觉图像和显著地标为索引的多模态经验记忆库,用于在导航过程中检索相关经验;引入检索增强生成流程,模拟经验丰富的人类导航员如何利用先验知识;并整合基于反思的记忆更新策略,选择性存储完整的成功路径及失败案例中的关键初始错误。综合测试表明,在仿真与真实测试中,CMMR-VLN相较于NavGPT、MapGPT和DiscussNav的平均成功率分别提升了52.9%、20.9%和20.9%,以及200%、50%和50%,充分证明了其作为骨干VLN框架的巨大潜力。

← Back