DyGeoVLN: Infusing Dynamic Geometry Foundation Model into Vision-Language Navigation<br>DyGeoVLN：将动态几何基础模型融入视觉语言导航<br>[摘要](abstracts/2603.21269.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航要求智能体理解视觉观察与语言指令，以在未见环境中进行导航。现有方法大多基于静态场景假设，难以在动态现实场景中泛化。为应对这一挑战，我们提出了DyGeoVLN，一种动态几何感知的视觉语言导航框架。该方法通过跨分支特征融合，将动态几何基础模型融入导航框架，以实现显式的三维空间表征与视觉语义推理。为高效压缩长时程动态导航中的历史令牌信息，我们进一步引入了一种新颖的无姿态自适应分辨率令牌剪枝策略，该策略能去除时空冗余令牌以降低推理成本。大量实验表明，我们的方法在多个基准测试中达到了最先进的性能，并在真实世界环境中展现出强大的鲁棒性。

← Back