Abstract not available.
当前视觉语言导航方法在异构机器人兼容性、实时性能和导航安全性方面面临显著瓶颈,且难以支持开放词汇语义泛化和多模态任务输入。为应对这些挑战,本文提出FSUNav:一种用于快速、安全且通用的零样本目标导向导航的大脑-小脑架构,创新性地将视觉语言模型(VLMs)与该架构相结合。小脑模块作为高频端到端模块,基于深度强化学习开发了通用局部规划器,实现了跨异构平台(如人形、四足、轮式机器人)的统一导航,在提升导航效率的同时显著降低碰撞风险。大脑模块构建了三层推理模型,并利用VLMs建立端到端的检测与验证机制,支持无需预定义ID的零样本开放词汇目标导航,提高了仿真和现实环境中的任务成功率。此外,该框架支持多模态输入(如文本、目标描述和图像),进一步增强了泛化能力、实时性、安全性和鲁棒性。在MP3D、HM3D和OVON基准测试上的实验结果表明,FSUNav在物体、实例图像和任务导航方面均达到最先进性能,显著优于现有方法。在多样化机器人平台上的实际部署进一步验证了其鲁棒性与实用价值。