DyGeoVLN: Infusing Dynamic Geometry Foundation Model into Vision-Language Navigation<br>DyGeoVLN:将动态几何基础模型融入视觉语言导航<br>[摘要](abstracts/2603.21269.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航要求智能体理解视觉观察与语言指令,以在未见环境中进行导航。现有方法大多基于静态场景假设,难以在动态现实场景中泛化。为应对这一挑战,我们提出了DyGeoVLN,一种动态几何感知的视觉语言导航框架。该方法通过跨分支特征融合,将动态几何基础模型融入导航框架,以实现显式的三维空间表征与视觉语义推理。为高效压缩长时程动态导航中的历史令牌信息,我们进一步引入了一种新颖的无姿态自适应分辨率令牌剪枝策略,该策略能去除时空冗余令牌以降低推理成本。大量实验表明,我们的方法在多个基准测试中达到了最先进的性能,并在真实世界环境中展现出强大的鲁棒性。

← Back