AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild<br>AutoFly：面向野外无人机自主导航的视觉-语言-动作模型<br>[摘要](abstracts/2602.09657.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）要求智能体通过结合语言指令与视觉观察来在环境中导航，是具身人工智能的核心任务之一。当前针对无人机（UAV）的VLN研究依赖于详细、预先指定的指令来引导无人机沿预定路径飞行。然而，现实世界的户外探索通常发生在未知环境中，无法提供详细的导航指令，仅能给予粗略的位置或方向性指导，这要求无人机通过持续规划与避障实现自主导航。为弥合这一差距，我们提出了AutoFly，一种用于无人机自主导航的端到端视觉-语言-动作（VLA）模型。AutoFly引入了一种伪深度编码器，可从RGB输入中提取深度感知特征以增强空间推理能力，并结合渐进式两阶段训练策略，有效对齐视觉、深度和语言表征与动作策略。此外，现有VLN数据集在现实世界自主导航方面存在根本性局限，主要源于其过度依赖显式指令跟随而非自主决策，以及真实世界数据不足。为解决这些问题，我们构建了一个新颖的自主导航数据集，通过以下方式将范式从指令跟随转向自主行为建模：（1）轨迹收集强调连续避障、自主规划和识别流程；（2）全面的真实世界数据整合。实验结果表明，AutoFly相比最先进的VLA基线方法成功率提高了3.9%，且在仿真和真实环境中均表现出一致的性能。

← Back