Abstract not available.
视觉语言导航正从单点路径规划向更具挑战性的多目标视觉语言导航演进。该任务要求智能体在协同推理空间物理约束与顺序执行路径的同时,精准识别多个目标实体。然而,通用检索增强生成范式因缺乏显式空间建模,在处理多目标关联时易出现空间幻觉与规划漂移问题。为应对这些挑战,我们提出RAGNav框架,该框架在语义推理与物理结构之间构建了桥梁。其核心是双基记忆系统,该系统通过底层拓扑地图维持物理连通性,并结合高层语义森林实现分层环境抽象。基于此表征,框架引入锚点引导的条件检索机制与拓扑邻域分数传播机制,既能快速筛选候选目标并消除语义噪声,又可借助拓扑邻域的物理关联进行语义校准。该机制显著增强了目标间可达性推理能力与序列规划效率。实验结果表明,RAGNav在复杂多目标导航任务中取得了最先进的性能表现。