Abstract not available.
现有的空中视觉语言导航(VLN)方法主要采用检测与规划流程,将开放词汇检测转换为离散的文本场景图。这些方法受限于空间推理能力不足和固有的语言歧义问题。为解决这些瓶颈,我们提出了一种视觉空间推理(ViSA)增强的空中VLN框架。具体而言,设计了一种三阶段协作架构,利用结构化视觉提示,使视觉语言模型(VLM)能够在图像平面上直接进行推理,无需额外训练或复杂的中间表示。在CityNav基准上的全面评估表明,ViSA增强的VLN在成功率上比完全训练的最先进(SOTA)方法提升了70.3%,揭示了其作为空中VLN系统骨干的巨大潜力。