VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness<br>VLN-Cache:基于视觉/语义动态感知的视觉语言导航模型令牌缓存技术<br>[摘要](abstracts/2603.07080.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航(VLN)日益依赖大型视觉语言模型,但其推理成本与实时部署需求存在冲突。令牌缓存作为一种无需重新训练的策略,通过跨帧复用稳定的视觉令牌来避免冗余计算,具有广阔前景。然而,现有方法假设相机静止且语义焦点固定,这与VLN的基本特性相悖。我们识别出两种失效模式:(1)视觉动态性:视角变化导致令牌在帧间位置偏移,使基于位置的匹配关联到未对齐的内容;(2)语义动态性:随着导航进程推进,令牌相关性在不同任务阶段发生转移,导致缓存状态过时。为此,我们提出VLN-Cache——一个兼具视觉动态感知与语义动态感知的缓存框架,其通过视图对齐重映射恢复几何对应关系,并引入任务相关性显著度过滤器以在语义转换时否决复用。此外,层级自适应熵策略进一步平衡了各层的复用预算。在R2R-CE仿真基准上的实验表明,该方法在保持导航成功率竞争力的同时,最高可实现1.52倍的加速效果。

← Back