Structured Observation Language for Efficient and Generalizable Vision-Language Navigation<br>结构化观察语言：实现高效且可泛化的视觉语言导航<br>[摘要](abstracts/2603.27577.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航要求具身智能体依据自然语言指令在复杂环境中导航，这通常需要视觉与语言模态的紧密融合。现有方法常将原始图像转换为视觉标记或隐式特征，这需要大规模视觉预训练，且在环境变化（如光照、纹理）下泛化能力较差。为解决这些问题，我们提出了SOL-Nav（面向导航的结构化观察语言），这是一种新颖框架，将自我中心视觉观察转化为紧凑的结构化语言描述，以实现高效且可泛化的导航。具体而言，我们将RGB-D图像划分为N*N网格，为每个网格单元提取代表性语义、颜色和深度信息以形成结构化文本，并将其与语言指令拼接作为纯语言输入，馈送至预训练语言模型。在标准VLN基准测试（R2R、RxR）和实际部署中的实验结果表明，SOL-Nav显著减小了模型规模和对训练数据的依赖，充分利用了预训练语言模型的推理与表征能力，并在未见环境中实现了强大的泛化性能。

← Back