Abstract not available.
视觉语言导航(VLN)智能体在未见环境中常难以进行长时程推理,尤其是在面对模糊、粗粒度指令时。尽管近期研究利用知识图谱增强推理能力,但受人类情景记忆启发的多模态事件知识潜力尚未得到充分探索。本研究提出一种以事件为中心的知识增强策略,通过自动化过程知识挖掘与特征融合,以解决VLN任务中的粗粒度指令与长时程推理难题。首先,我们构建了首个大规模多模态时空知识图谱YE-KG,包含超过8.6万个节点与8.3万条边,数据源自真实世界室内视频。借助多模态大语言模型(如LLaVa、GPT4),我们将非结构化视频流解析为结构化的语义-动作-效果事件,作为显式情景记忆。其次,我们提出STE-VLN模型,通过“由粗到细分层检索”机制将上述图谱整合至VLN模型中,使智能体能检索因果事件序列,并动态将其与第一人称视觉观测相融合。在REVERIE、R2R和R2R-CE基准测试上的实验验证了本事件中心策略的高效性,其在不同动作空间中的表现均优于现有先进方法。项目数据与代码已公开于网站:https://sites.google.com/view/y-event-kg/。