Dynamic Topology Awareness: Breaking the Granularity Rigidity in Vision-Language Navigation<br>动态拓扑感知:打破视觉语言导航中的粒度僵化<br>[摘要](abstracts/2601.21751.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

连续环境下的视觉语言导航(VLN-CE)面临一个核心挑战:将高层语言指令落实到精确、安全且长距离的空间行动中。显式拓扑图已被证明是为此类任务提供鲁棒空间记忆的关键方案。然而,现有拓扑规划方法存在“粒度僵化”问题。具体而言,这些方法通常依赖固定的几何阈值来采样节点,无法适应多变的环境复杂性。这种僵化导致严重的不匹配:模型在简单区域倾向于过度采样,造成计算冗余;而在高不确定性区域则采样不足,增加碰撞风险并损害导航精度。为解决此问题,我们提出了DGNav——一个动态拓扑导航框架,引入上下文感知机制以实时调整地图密度与连通性。我们的方法包含两项核心创新:(1)场景感知自适应策略:基于预测路径点的离散度动态调整图构建阈值,实现在复杂环境中“按需加密”;(2)动态图变换器:通过融合视觉、语言与几何线索为动态边权重,重构图连通性,使智能体能够滤除拓扑噪声并增强指令遵循能力。在R2R-CE和RxR-CE基准上的大量实验表明,DGNav展现出卓越的导航性能和强大的泛化能力。此外,消融研究证实该框架在导航效率与安全探索间实现了最优平衡。代码已开源:https://github.com/shannanshouyin/DGNav。

← Back