Abstract not available.
在多模态大语言模型(MLLMs)中,视觉信息相较于文本信息较为稀疏。因此,为提升推理效率,视觉令牌剪枝研究应运而生。当前方法通常基于视觉编码器或大语言模型解码器中的注意力分数来衡量令牌重要性,进而选择高注意力分数的视觉令牌并剪除其余部分。本文提出了一种不同且更为精细的方法。我们不依赖特定机制信号,而是直接在视觉与文本特征交互前计算它们之间的互信息(MI),从而在特征层面显式度量跨模态依赖关系。我们的MI-Pruner方法简洁高效且无需侵入模型,既不依赖内部注意力图,也无需修改模型架构。实验结果表明,该方法以极低的延迟超越了以往基于注意力的剪枝方法。