AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild<br>AutoFly:面向野外无人机自主导航的视觉-语言-动作模型<br>[摘要](abstracts/2602.09657.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航(VLN)要求智能体通过结合语言指令与视觉观察来在环境中导航,是具身人工智能的核心任务之一。当前针对无人机(UAV)的VLN研究依赖于详细、预先指定的指令来引导无人机沿预定路径飞行。然而,现实世界的户外探索通常发生在未知环境中,无法提供详细的导航指令,仅能给予粗略的位置或方向性指导,这要求无人机通过持续规划与避障实现自主导航。为弥合这一差距,我们提出了AutoFly,一种用于无人机自主导航的端到端视觉-语言-动作(VLA)模型。AutoFly引入了一种伪深度编码器,可从RGB输入中提取深度感知特征以增强空间推理能力,并结合渐进式两阶段训练策略,有效对齐视觉、深度和语言表征与动作策略。此外,现有VLN数据集在现实世界自主导航方面存在根本性局限,主要源于其过度依赖显式指令跟随而非自主决策,以及真实世界数据不足。为解决这些问题,我们构建了一个新颖的自主导航数据集,通过以下方式将范式从指令跟随转向自主行为建模:(1)轨迹收集强调连续避障、自主规划和识别流程;(2)全面的真实世界数据整合。实验结果表明,AutoFly相比最先进的VLA基线方法成功率提高了3.9%,且在仿真和真实环境中均表现出一致的性能。

← Back