FineCog-Nav: Integrating Fine-grained Cognitive Modules for Zero-shot Multimodal UAV Navigation<br>FineCog-Nav:集成细粒度认知模块实现零样本多模态无人机导航<br>[摘要](abstracts/2604.16298.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

无人机视觉语言导航要求智能体在自我中心视角下,于复杂三维环境中遵循模糊多步指令进行长时程导航。现有零样本方法仍存在局限,因其常依赖大型基础模型、通用提示词及松散协调的模块。本文提出FineCog-Nav,一种受人类认知启发的自上而下框架,将导航任务分解为语言处理、感知、注意力、记忆、想象、推理与决策等细粒度模块。每个模块由中等规模的基础模型驱动,配备角色专用提示词和结构化输入输出协议,从而实现高效协作并提升可解释性。为支持细粒度评估,我们构建了AerialVLN-Fine基准数据集,该数据集源自AerialVLN,包含300条精选轨迹,实现了句子级指令-轨迹对齐,并优化了指令内容以包含明确的视觉终点和地标参照。实验表明,FineCog-Nav在指令遵循度、长时程规划及对未见环境的泛化能力上均持续优于零样本基线方法。这些结果验证了细粒度认知模块化在零样本空中导航中的有效性。项目页面:https://smartdianlab.github.io/projects-FineCogNav。

← Back