Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity<br>剪除冗余，保留精髓：基于协同重要性-多样性原则的视觉语言模型视觉令牌压缩<br>[摘要](abstracts/2603.09480.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）因生成过多视觉令牌而面临显著的计算效率低下问题。尽管先前研究表明大部分视觉令牌是冗余的，但现有的压缩方法难以在重要性保留与信息多样性之间取得平衡。为此，我们提出PruneSID，一种无需训练的协同重要性-多样性方法，采用两阶段流程：（1）主语义成分分析（PSCA），将令牌聚类为语义连贯的组，确保全面覆盖概念；（2）组内非极大值抑制（NMS），在每组中剪除冗余令牌，同时保留关键代表性令牌。此外，PruneSID引入了一种信息感知的动态压缩比机制，根据图像复杂度优化令牌压缩率，从而在不同场景中实现更有效的平均信息保留。大量实验证明了其最先进的性能，在LLaVA-1.5上仅保留11.1%令牌时达到96.3%的准确率，在LLaVA-NeXT上极端压缩率（5.6%）下实现92.8%的准确率，优于先前方法2.5%，且预填充速度比原始模型快7.8倍。我们的框架可泛化至多种VLMs及图像与视频模态，展现出强大的跨模态通用性。代码发布于https://github.com/ZhengyaoFang/PruneSID。

← Back