HTNav: A Hybrid Navigation Framework with Tiered Structure for Urban Aerial Vision-and-Language Navigation<br>HTNav：一种面向城市空中视觉与语言导航的层级式混合导航框架<br>[摘要](abstracts/2604.08883.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

受通用视觉与语言导航任务的启发，空中视觉与语言导航因其在物流配送和城市巡检等应用中的显著实用价值而受到广泛关注。然而，现有方法在复杂的城市环境中面临诸多挑战，包括对未见场景的泛化能力不足、长距离路径规划性能欠佳以及对空间连续性的理解不充分。为解决这些挑战，我们提出了HTNav，一种新型协作导航框架，该框架在混合模仿学习与强化学习架构中整合了模仿学习和强化学习。该框架采用分阶段训练机制，确保基础导航策略的稳定性，同时增强其环境探索能力。通过集成层级决策机制，实现了宏观路径规划与细粒度动作控制之间的协同交互。此外，引入地图表示学习模块以深化其对开放域空间连续性的理解。在CityNav基准测试中，我们的方法在所有场景级别和任务难度上均达到了最先进的性能。实验结果表明，该框架显著提升了复杂城市环境中的导航精度与鲁棒性。

← Back