VLN-Cache: Enabling Token Caching for VLN Models with Visual/Semantic Dynamics Awareness<br>VLN-Cache：基于视觉/语义动态感知的视觉语言导航模型令牌缓存技术<br>[摘要](abstracts/2603.07080.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言导航（VLN）日益依赖大型视觉语言模型，但其推理成本与实时部署需求存在冲突。令牌缓存作为一种无需重新训练的策略，通过跨帧复用稳定的视觉令牌来避免冗余计算，具有广阔前景。然而，现有方法假设相机静止且语义焦点固定，这与VLN的基本特性相悖。我们识别出两种失效模式：（1）视觉动态性：视角变化导致令牌在帧间位置偏移，使基于位置的匹配关联到未对齐的内容；（2）语义动态性：随着导航进程推进，令牌相关性在不同任务阶段发生转移，导致缓存状态过时。为此，我们提出VLN-Cache——一个兼具视觉动态感知与语义动态感知的缓存框架，其通过视图对齐重映射恢复几何对应关系，并引入任务相关性显著度过滤器以在语义转换时否决复用。此外，层级自适应熵策略进一步平衡了各层的复用预算。在R2R-CE仿真基准上的实验表明，该方法在保持导航成功率竞争力的同时，最高可实现1.52倍的加速效果。

← Back