Vision-Language Navigation for Aerial Robots: Towards the Era of Large Language Models<br>面向空中机器人的视觉语言导航：迈向大语言模型时代<br>[摘要](abstracts/2604.07705.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

空中视觉语言导航旨在使无人机能够理解自然语言指令，并通过将语言与视觉感知相结合，在复杂三维环境中自主导航。本文对该领域进行了批判性与分析性综述，特别关注近期大语言模型与视觉语言模型的融合应用。首先，我们正式引入空中视觉语言导航问题，并定义单指令与基于对话两种交互范式作为基础框架。随后，将现有方法归纳为五大架构类别：序列到序列与注意力机制方法、端到端大语言模型/视觉语言模型方法、分层方法、多智能体方法以及基于对话的导航方法。针对每类方法，系统分析了设计原理、技术权衡与报告性能。我们批判性评估了空中视觉语言导航的评价体系，包括数据集、仿真平台与评估指标，并指出其在规模、环境多样性、现实世界关联性及指标覆盖度方面的不足。通过整合共享基准上的跨方法比较，分析了关键架构权衡，包括离散与连续动作、端到端与分层设计、仿真到现实的差距。最后，基于综述证据提炼出七个具体开放性问题：长时程指令落地、视角鲁棒性、可扩展空间表征、连续六自由度动作执行、机载部署、基准标准化及多无人机集群导航，并为每个问题指明了具体研究方向。

← Back