Abstract not available.
近年来,通过减少视觉-语言模型(VLMs)中的冗余视觉令牌以加速VLM推理已成为热门话题。然而,现有方法大多依赖于基于视觉令牌间相似性或跨模态视觉-文本相似性构建的启发式规则,这导致其在压缩性能和实际部署中存在一定局限性。相比之下,我们从推理目标的角度出发,提出了PIO-FVLM,将视觉令牌压缩转化为保持输出结果不变性的问题,并依据令牌对此目标的重要性进行筛选。具体而言,我们通过设计的层局部代理损失(一种从当前层到最终结果的粗略约束)生成令牌级梯度显著性,并以此指导视觉令牌重新排序。随后,遵循非极大值抑制(NMS)原则选取最有价值的视觉令牌。所提出的PIO-FVLM无需训练,且与FlashAttention兼容,便于实际应用与部署。它可作为无编码器方法独立部署,也可与VisionZip等编码器压缩方法结合,作为编码器参与的方法使用。在LLaVA-Next-7B模型上,PIO-FVLM仅保留11.1%的视觉令牌,却能维持97.2%的原始性能,同时实现预填充速度提升2.67倍、推理速度提升2.11倍、计算量(FLOPs)降低6.22倍,并减少6.05倍的KV缓存开销。代码已开源:https://github.com/ocy1/PIO-FVLM。