FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching<br>FreqCache:自适应频率引导的令牌缓存加速具身VLN模型<br>[摘要](abstracts/2604.24391.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-导航(VLN)模型展现出卓越的导航精度,但计算开销巨大。令牌缓存作为一种有前景的免训练策略,通过重用令牌计算结果来降低这一成本;然而,现有令牌缓存方法依赖视觉域方法选择可缓存令牌,在适配VLN模型时面临挑战:1)视觉域方法在视点迁移时失效;2)视觉域方法在缺乏额外算法辅助时忽视关键边缘信息;3)视觉域方法忽略场景的时序变化且缺乏缓存预算的可调性。本文通过详细分析发现,这些挑战的影响在频域中具有不变性和可分析性。基于此,我们提出一个频率引导的令牌缓存框架,称为FreqCache。利用频域的固有特性,FreqCache实现了最优令牌缓存建立、刷新和自适应调整。实验表明,FreqCache在可忽略的开销下实现了1.59倍加速,展示了频域方法在VLN令牌缓存中的整合效果。

← Back