ViSA-Enhanced Aerial VLN: A Visual-Spatial Reasoning Enhanced Framework for Aerial Vision-Language Navigation<br>ViSA增强的空中视觉语言导航：一种视觉空间推理增强的空中视觉语言导航框架<br>[摘要](abstracts/2603.08007.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

现有的空中视觉语言导航（VLN）方法主要采用检测与规划流程，将开放词汇检测转换为离散的文本场景图。这些方法受限于空间推理能力不足和固有的语言歧义问题。为解决这些瓶颈，我们提出了一种视觉空间推理（ViSA）增强的空中VLN框架。具体而言，设计了一种三阶段协作架构，利用结构化视觉提示，使视觉语言模型（VLM）能够在图像平面上直接进行推理，无需额外训练或复杂的中间表示。在CityNav基准上的全面评估表明，ViSA增强的VLN在成功率上比完全训练的最先进（SOTA）方法提升了70.3%，揭示了其作为空中VLN系统骨干的巨大潜力。

← Back