Abstract not available.
视觉语言导航旨在赋予机器人在陌生环境中依据复杂语言指令执行长程导航的能力。其成功关键在于建立高效的“语言理解—视觉感知—具身执行”闭环。现有方法在复杂长距离任务中常因单智能体的认知过载而遭受感知扭曲与决策漂移。受分布式认知理论启发,本文提出MA-CoNav,一种多智能体协同导航框架。该框架采用“主-从”层次化智能体协作架构,将导航任务所需的感知、规划、执行与记忆功能解耦并分配给专业化智能体。具体而言,主智能体负责全局协调,从属智能体组通过明确分工协作:观测智能体生成环境描述,规划智能体执行任务分解与动态验证,执行智能体处理同步建图与行动,记忆智能体管理结构化经验。此外,框架引入“局部-全局”双阶段反思机制,以动态优化整个导航流程。实验基于Limo Pro机器人采集的真实室内数据集进行,全程未对模型进行场景特定微调。结果表明,MA-CoNav在多项指标上全面优于现有主流视觉语言导航方法。