Abstract not available.
空中视觉语言导航旨在使无人机能够理解自然语言指令,并通过将语言与视觉感知相结合,在复杂三维环境中自主导航。本文对该领域进行了批判性与分析性综述,特别关注近期大语言模型与视觉语言模型的融合应用。首先,我们正式引入空中视觉语言导航问题,并定义单指令与基于对话两种交互范式作为基础框架。随后,将现有方法归纳为五大架构类别:序列到序列与注意力机制方法、端到端大语言模型/视觉语言模型方法、分层方法、多智能体方法以及基于对话的导航方法。针对每类方法,系统分析了设计原理、技术权衡与报告性能。我们批判性评估了空中视觉语言导航的评价体系,包括数据集、仿真平台与评估指标,并指出其在规模、环境多样性、现实世界关联性及指标覆盖度方面的不足。通过整合共享基准上的跨方法比较,分析了关键架构权衡,包括离散与连续动作、端到端与分层设计、仿真到现实的差距。最后,基于综述证据提炼出七个具体开放性问题:长时程指令落地、视角鲁棒性、可扩展空间表征、连续六自由度动作执行、机载部署、基准标准化及多无人机集群导航,并为每个问题指明了具体研究方向。