Abstract not available.
空中视觉语言导航(Aerial VLN)使无人机能够遵循自然语言指令,在复杂的城市环境中导航。尽管近期研究通过大规模记忆图谱和前瞻路径规划取得了进展,但仍受限于浅层的指令理解和高昂的计算成本。特别是,现有方法主要依赖地标描述,忽视了方向线索——人类导航中空间上下文的关键来源。在本研究中,我们提出了LookasideVLN,一种利用自然语言中方向线索的新范式,旨在实现更精确的空间推理和更高的计算效率。LookasideVLN包含三个核心组件:(1)一种以自我为中心的旁视图(ELG),动态编码与指令相关的地标及其方向关系;(2)一个空间地标知识库(SLKB),提供基于先前导航经验的轻量级记忆检索;(3)一个旁视多模态大语言模型导航代理,用于对齐来自用户指令、视觉观测以及ELG提供的地标方向信息的多模态数据,以进行路径规划。大量实验表明,即使仅采用单层前瞻规划,LookasideVLN也显著优于当前最先进的CityNavAgent,证明了利用方向线索是空中视觉语言导航中一种强大且高效的策略。