Abstract not available.
视觉语言导航要求具身智能体依据自然语言指令在复杂环境中导航,这通常需要视觉与语言模态的紧密融合。现有方法常将原始图像转换为视觉标记或隐式特征,这需要大规模视觉预训练,且在环境变化(如光照、纹理)下泛化能力较差。为解决这些问题,我们提出了SOL-Nav(面向导航的结构化观察语言),这是一种新颖框架,将自我中心视觉观察转化为紧凑的结构化语言描述,以实现高效且可泛化的导航。具体而言,我们将RGB-D图像划分为N*N网格,为每个网格单元提取代表性语义、颜色和深度信息以形成结构化文本,并将其与语言指令拼接作为纯语言输入,馈送至预训练语言模型。在标准VLN基准测试(R2R、RxR)和实际部署中的实验结果表明,SOL-Nav显著减小了模型规模和对训练数据的依赖,充分利用了预训练语言模型的推理与表征能力,并在未见环境中实现了强大的泛化性能。