FineCog-Nav: Integrating Fine-grained Cognitive Modules for Zero-shot Multimodal UAV Navigation<br>FineCog-Nav：集成细粒度认知模块实现零样本多模态无人机导航<br>[摘要](abstracts/2604.16298.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

无人机视觉语言导航要求智能体在自我中心视角下，于复杂三维环境中遵循模糊多步指令进行长时程导航。现有零样本方法仍存在局限，因其常依赖大型基础模型、通用提示词及松散协调的模块。本文提出FineCog-Nav，一种受人类认知启发的自上而下框架，将导航任务分解为语言处理、感知、注意力、记忆、想象、推理与决策等细粒度模块。每个模块由中等规模的基础模型驱动，配备角色专用提示词和结构化输入输出协议，从而实现高效协作并提升可解释性。为支持细粒度评估，我们构建了AerialVLN-Fine基准数据集，该数据集源自AerialVLN，包含300条精选轨迹，实现了句子级指令-轨迹对齐，并优化了指令内容以包含明确的视觉终点和地标参照。实验表明，FineCog-Nav在指令遵循度、长时程规划及对未见环境的泛化能力上均持续优于零样本基线方法。这些结果验证了细粒度认知模块化在零样本空中导航中的有效性。项目页面：https://smartdianlab.github.io/projects-FineCogNav。

← Back