Abstract not available.
无人机在自主探索、灾害响应和基础设施巡检等应用中扮演着重要角色。然而,在复杂三维环境中实现无人机视觉语言导航仍面临挑战。一个关键难点在于二维视觉感知与三维轨迹决策空间之间的结构表示不匹配,这限制了空间推理能力。为此,我们提出SpatialFly,一种面向无人机视觉语言导航的几何引导空间表示框架。该框架基于RGB观测数据运行,无需显式三维重建,引入了几何引导的二维表示对齐机制。具体而言,几何先验注入模块将全局结构线索注入二维语义标记中,以提供场景级几何引导;随后,几何感知重参数化模块通过跨模态注意力将二维语义标记与三维几何标记对齐,并采用门控残差融合以保持语义区分性。实验结果表明,SpatialFly在已见和未见环境中均持续优于当前最先进的无人机视觉语言导航基线方法,在未见完整数据集上,相较于最强基线,导航误差降低4.03米,成功率提升1.27%。进一步的轨迹级分析显示,SpatialFly生成的轨迹具有更优的路径对齐度以及更平滑、更稳定的运动特性。