LookasideVLN: Direction-Aware Aerial Vision-and-Language Navigation<br>LookasideVLN：方向感知的空中视觉语言导航<br>[摘要](abstracts/2604.17190.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

空中视觉语言导航（Aerial VLN）使无人机能够遵循自然语言指令，在复杂的城市环境中导航。尽管近期研究通过大规模记忆图谱和前瞻路径规划取得了进展，但仍受限于浅层的指令理解和高昂的计算成本。特别是，现有方法主要依赖地标描述，忽视了方向线索——人类导航中空间上下文的关键来源。在本研究中，我们提出了LookasideVLN，一种利用自然语言中方向线索的新范式，旨在实现更精确的空间推理和更高的计算效率。LookasideVLN包含三个核心组件：（1）一种以自我为中心的旁视图（ELG），动态编码与指令相关的地标及其方向关系；（2）一个空间地标知识库（SLKB），提供基于先前导航经验的轻量级记忆检索；（3）一个旁视多模态大语言模型导航代理，用于对齐来自用户指令、视觉观测以及ELG提供的地标方向信息的多模态数据，以进行路径规划。大量实验表明，即使仅采用单层前瞻规划，LookasideVLN也显著优于当前最先进的CityNavAgent，证明了利用方向线索是空中视觉语言导航中一种强大且高效的策略。

← Back