EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models<br>EntropyPrune：基于矩阵熵引导的多模态大语言模型视觉令牌剪枝<br>[摘要](abstracts/2602.17196.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）因每张图像需处理数百个视觉令牌而产生高昂推理成本。尽管令牌剪枝已被证明能有效加速推理，但何时何地进行剪枝仍主要依赖启发式方法。现有方法通常基于静态、经验选择的层，这限制了其可解释性和跨模型的可迁移性。本研究引入矩阵熵视角，识别出“熵坍缩层”（ECL），即视觉表示的信息内容在此层出现急剧且一致的下降，从而为选择剪枝阶段提供了原则性准则。基于此观察，我们提出EntropyPrune，一种新颖的矩阵熵引导令牌剪枝框架，该框架量化单个视觉令牌的信息价值，并在不依赖注意力图的情况下剪除冗余令牌。此外，为实现高效计算，我们利用对偶格拉姆矩阵的谱等价性，降低了熵计算的复杂度，理论加速比最高可达64倍。在多样化多模态基准上的广泛实验表明，EntropyPrune在准确性和效率上均持续优于最先进的剪枝方法。在LLaVA-1.5-7B模型上，我们的方法实现了68.2%的浮点运算量（FLOPs）减少，同时保持了96.0%的原始性能。此外，EntropyPrune能有效泛化至高分辨率和基于视频的模型，凸显了其在实用MLLM加速中的强鲁棒性和可扩展性。代码将公开于https://github.com/YahongWang1/EntropyPrune。

← Back