PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective<br>PIO-FVLM：从推理目标视角重新审视用于VLM加速的无训练视觉令牌缩减<br>[摘要](abstracts/2602.04657.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近年来，通过减少视觉-语言模型（VLMs）中的冗余视觉令牌以加速VLM推理已成为热门话题。然而，现有方法大多依赖于基于视觉令牌间相似性或跨模态视觉-文本相似性构建的启发式规则，这导致其在压缩性能和实际部署中存在一定局限性。相比之下，我们从推理目标的角度出发，提出了PIO-FVLM，将视觉令牌压缩转化为保持输出结果不变性的问题，并依据令牌对此目标的重要性进行筛选。具体而言，我们通过设计的层局部代理损失（一种从当前层到最终结果的粗略约束）生成令牌级梯度显著性，并以此指导视觉令牌重新排序。随后，遵循非极大值抑制（NMS）原则选取最有价值的视觉令牌。所提出的PIO-FVLM无需训练，且与FlashAttention兼容，便于实际应用与部署。它可作为无编码器方法独立部署，也可与VisionZip等编码器压缩方法结合，作为编码器参与的方法使用。在LLaVA-Next-7B模型上，PIO-FVLM仅保留11.1%的视觉令牌，却能维持97.2%的原始性能，同时实现预填充速度提升2.67倍、推理速度提升2.11倍、计算量（FLOPs）降低6.22倍，并减少6.05倍的KV缓存开销。代码已开源：https://github.com/ocy1/PIO-FVLM。

← Back