Beyond Textual Knowledge-Leveraging Multimodal Knowledge Bases for Enhancing Vision-and-Language Navigation<br>超越文本知识：利用多模态知识库增强视觉与语言导航<br>[摘要](abstracts/2603.26859.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉与语言导航（VLN）要求智能体根据自然语言指令在复杂未知环境中进行导航。然而，现有方法往往难以有效捕捉关键语义线索并将其与视觉观测精确对齐。为克服这一局限，我们提出了超越文本知识（BTK）框架，该框架协同整合了环境特定的文本知识与生成式图像知识库。BTK采用Qwen3-4B模型提取目标相关短语，并利用Flux-Schnell构建了两个大规模图像知识库：R2R-GP和REVERIE-GP。此外，我们借助BLIP-2构建了基于全景视图的大规模文本知识库，以提供环境特定的语义线索。这些多模态知识库通过目标感知增强器和知识增强器有效融合，显著提升了语义接地与跨模态对齐能力。在包含7,189条轨迹的R2R数据集和包含21,702条指令的REVERIE数据集上的大量实验表明，BTK显著优于现有基线方法。在R2R和REVERIE的测试未见集上，成功率（SR）分别提升了5%和2.07%，路径长度加权成功率（SPL）分别提升了4%和3.69%。源代码已发布于https://github.com/yds3/IPM-BTK/。

← Back