TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation<br>TagaVLM：面向视觉语言导航的拓扑感知全局动作推理<br>[摘要](abstracts/2603.02972.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）对大型视觉语言模型（VLMs）提出了独特挑战，源于其固有的架构不匹配：VLMs主要基于静态、非具身的视觉语言任务进行预训练，这与导航的动态性、具身性及空间结构化特性存在根本冲突。现有基于大模型的方法常将丰富的视觉与空间信息转换为文本，迫使模型隐式推断复杂的视觉-拓扑关系，或限制其全局动作能力。为弥合这一差距，我们提出了TagaVLM（拓扑感知全局动作推理），一种端到端框架，显式地将拓扑结构注入VLM主干。为引入拓扑边信息，空间拓扑感知残差注意力（STAR-Att）将其直接集成到VLM的自注意力机制中，在保持预训练知识的同时实现内在的空间推理。为增强拓扑节点信息，交错导航提示强化了节点级的视觉-文本对齐。最终，借助嵌入的拓扑图，模型能够进行全局动作推理，实现鲁棒的路径修正。在R2R基准测试中，TagaVLM在基于大模型的方法中取得了最先进的性能，在未见环境中成功率（SR）达51.09%，SPL为47.18，分别以3.39%的SR和9.08的SPL超越先前工作。这表明，对于具身空间推理，针对小型开源VLMs的针对性增强比暴力模型缩放更为有效。代码将在发表后开源。项目页面：https://apex-bjut.github.io/Taga-VLM

← Back