Abstract not available.
无人机视觉与语言导航(UAV-VLN)是具身人工智能领域的一项关键挑战,旨在使无人机能够理解高级人类指令,并在复杂的三维环境中执行长时程任务。本文对该领域进行了全面而结构化的综述,涵盖从任务形式化定义到当前技术前沿的各个方面。我们建立了一套方法学分类体系,梳理了从早期模块化与深度学习方法,到当前由大型基础模型驱动的智能体系统(包括视觉语言模型、视觉语言动作模型,以及新兴的生成世界模型与视觉语言动作架构融合的物理推理技术)的技术演进路径。综述系统梳理了支撑标准化研究的关键资源生态系统,包括仿真平台、数据集与评估指标。此外,我们对阻碍实际部署的主要挑战进行了批判性分析:仿真与现实间的差距、动态户外环境下的鲁棒感知、语言歧义推理,以及大型模型在资源受限硬件上的高效部署。通过综合现有基准与局限性,本文最后提出了一项前瞻性研究路线图,以指导未来在关键前沿方向(如多智能体集群协同与空地协作机器人)的探索。