Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos<br>利用真实世界室内导览视频的多模态事件知识增强视觉语言导航<br>[摘要](abstracts/2602.23937.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）智能体在未见环境中常难以进行长时程推理，尤其是在面对模糊、粗粒度指令时。尽管近期研究利用知识图谱增强推理能力，但受人类情景记忆启发的多模态事件知识潜力尚未得到充分探索。本研究提出一种以事件为中心的知识增强策略，通过自动化过程知识挖掘与特征融合，以解决VLN任务中的粗粒度指令与长时程推理难题。首先，我们构建了首个大规模多模态时空知识图谱YE-KG，包含超过8.6万个节点与8.3万条边，数据源自真实世界室内视频。借助多模态大语言模型（如LLaVa、GPT4），我们将非结构化视频流解析为结构化的语义-动作-效果事件，作为显式情景记忆。其次，我们提出STE-VLN模型，通过“由粗到细分层检索”机制将上述图谱整合至VLN模型中，使智能体能检索因果事件序列，并动态将其与第一人称视觉观测相融合。在REVERIE、R2R和R2R-CE基准测试上的实验验证了本事件中心策略的高效性，其在不同动作空间中的表现均优于现有先进方法。项目数据与代码已公开于网站：https://sites.google.com/view/y-event-kg/。

← Back