FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching<br>FreqCache：自适应频率引导的令牌缓存加速具身VLN模型<br>[摘要](abstracts/2604.24391.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-导航（VLN）模型展现出卓越的导航精度，但计算开销巨大。令牌缓存作为一种有前景的免训练策略，通过重用令牌计算结果来降低这一成本；然而，现有令牌缓存方法依赖视觉域方法选择可缓存令牌，在适配VLN模型时面临挑战：1）视觉域方法在视点迁移时失效；2）视觉域方法在缺乏额外算法辅助时忽视关键边缘信息；3）视觉域方法忽略场景的时序变化且缺乏缓存预算的可调性。本文通过详细分析发现，这些挑战的影响在频域中具有不变性和可分析性。基于此，我们提出一个频率引导的令牌缓存框架，称为FreqCache。利用频域的固有特性，FreqCache实现了最优令牌缓存建立、刷新和自适应调整。实验表明，FreqCache在可忽略的开销下实现了1.59倍加速，展示了频域方法在VLN令牌缓存中的整合效果。

← Back