HiMemVLN: Enhancing Reliability of Open-Source Zero-Shot Vision-and-Language Navigation with Hierarchical Memory System<br>HiMemVLN：通过分层记忆系统提升开源零样本视觉语言导航的可靠性<br>[摘要](abstracts/2603.14807.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

基于大语言模型的智能体在视觉语言导航任务中展现了令人印象深刻的零样本性能。然而，大多数零样本方法主要依赖闭源大语言模型作为导航器，面临着高令牌成本和潜在数据泄露风险的挑战。近期研究尝试通过结合开源大语言模型与时空思维链框架来解决这一问题，但其性能仍远不及闭源模型。本研究通过详细分析导航过程，识别出一个关键问题——导航遗忘症，该问题导致导航失败并扩大了开源与闭源方法之间的性能差距。为此，我们提出HiMemVLN方法，将分层记忆系统整合到多模态大模型中，以增强视觉感知记忆和长期定位能力，从而缓解遗忘问题并提升智能体的导航性能。在模拟和真实环境中的大量实验表明，HiMemVLN的性能达到开源最先进方法的近两倍。代码已发布于https://github.com/lvkailin0118/HiMemVLN。

← Back