Abstract not available.
空中视觉语言导航(AVLN)使无人机能够在复杂的三维环境中遵循自然语言指令。然而,现有的零样本AVLN方法常面临单流视觉语言模型决策不稳定、长时程进度监测不可靠以及安全与效率之间的权衡问题。本文提出OnFly,一个完全机载、实时的零样本AVLN框架。OnFly采用共享感知的双智能体架构,将高频目标生成与低频进度监测解耦,从而稳定决策。它进一步利用混合关键帧-近期帧记忆来保持全局轨迹上下文,同时维持KV缓存前缀的稳定性,实现可靠的长时程监测,并提供终止与恢复信号。此外,通过语义-几何验证器,利用VLM特征和深度线索,对VLM预测的目标进行指令一致性和几何安全性优化;同时,采用滚动时域规划器在几何安全约束下生成优化的无碰撞轨迹,从而提升安全性和效率。在仿真中,与最强的现有基线相比,OnFly将任务成功率从26.4%提升至67.8%,而完全机载的真实世界飞行验证了其实时部署的可行性。代码将在https://github.com/Robotics-STAR-Lab/OnFly发布。