CMMR-VLN: Vision-and-Language Navigation via Continual Multimodal Memory Retrieval<br>CMMR-VLN：基于持续多模态记忆检索的视觉与语言导航<br>[摘要](abstracts/2603.07997.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大型语言模型（LLMs）已被引入视觉与语言导航（VLN）领域以提升指令理解与泛化能力，但现有基于LLM的VLN方法缺乏选择性回忆并利用相关先验经验来辅助导航任务的能力，这限制了其在长视野和陌生场景中的表现。本文提出CMMR-VLN（基于持续多模态记忆检索的VLN），这是一种赋予LLM智能体结构化记忆与反思能力的VLN框架。具体而言，CMMR-VLN构建了一个以全景视觉图像和显著地标为索引的多模态经验记忆库，用于在导航过程中检索相关经验；引入检索增强生成流程，模拟经验丰富的人类导航员如何利用先验知识；并整合基于反思的记忆更新策略，选择性存储完整的成功路径及失败案例中的关键初始错误。综合测试表明，在仿真与真实测试中，CMMR-VLN相较于NavGPT、MapGPT和DiscussNav的平均成功率分别提升了52.9%、20.9%和20.9%，以及200%、50%和50%，充分证明了其作为骨干VLN框架的巨大潜力。

← Back