Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap<br>无人机视觉与语言导航：进展、挑战与研究路线图<br>[摘要](abstracts/2604.13654.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

无人机视觉与语言导航（UAV-VLN）是具身人工智能领域的一项关键挑战，旨在使无人机能够理解高级人类指令，并在复杂的三维环境中执行长时程任务。本文对该领域进行了全面而结构化的综述，涵盖从任务形式化定义到当前技术前沿的各个方面。我们建立了一套方法学分类体系，梳理了从早期模块化与深度学习方法，到当前由大型基础模型驱动的智能体系统（包括视觉语言模型、视觉语言动作模型，以及新兴的生成世界模型与视觉语言动作架构融合的物理推理技术）的技术演进路径。综述系统梳理了支撑标准化研究的关键资源生态系统，包括仿真平台、数据集与评估指标。此外，我们对阻碍实际部署的主要挑战进行了批判性分析：仿真与现实间的差距、动态户外环境下的鲁棒感知、语言歧义推理，以及大型模型在资源受限硬件上的高效部署。通过综合现有基准与局限性，本文最后提出了一项前瞻性研究路线图，以指导未来在关键前沿方向（如多智能体集群协同与空地协作机器人）的探索。

← Back