Learning to Retrieve Navigable Candidates for Efficient Vision-and-Language Navigation<br>学习检索可导航候选对象以实现高效的视觉与语言导航<br>[摘要](abstracts/2602.15724.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉与语言导航（VLN）要求智能体遵循自然语言指令，在未见过的环境中进行导航。由于大型语言模型（LLM）的灵活性和推理能力，近期方法越来越多地将其用作高层导航器。然而，基于提示的LLM导航常因决策效率低下而受限，因为模型必须在每一步从头解释指令，并对嘈杂且冗长的可导航候选对象进行推理。本文提出一种检索增强框架，旨在不修改或微调底层语言模型的前提下，提升基于LLM的VLN的效率和稳定性。我们的方法在两个互补层面引入检索机制：在任务层面，通过指令级嵌入检索器选择语义相似的成功导航轨迹作为上下文示例，为指令落地提供任务特定的先验知识；在步骤层面，通过模仿学习训练的候选检索器在LLM推理前剪除无关的导航方向，从而减少动作歧义和提示复杂度。两个检索模块均设计为轻量级、模块化，且独立于LLM进行训练。我们在Room-to-Room（R2R）基准测试上评估了该方法，实验结果表明，在已见和未见环境中，成功率、最优成功率及SPL指标均获得持续提升。消融研究进一步显示，指令级示例检索与候选剪枝在全局引导和逐步决策效率方面具有互补优势。这些结果证明，检索增强的决策支持是提升基于LLM的视觉与语言导航的有效且可扩展策略。

← Back