Abstract not available.
令牌剪枝对于提升视觉语言模型的计算效率至关重要,尤其在视频任务中,时间冗余现象普遍存在。先前方法通常仅在视觉变换器内剪枝令牌,适用于动作识别和物体分割等单模态感知任务,但未适配下游视觉语言任务;或仅在大型语言模型内剪枝,而保持视觉变换器输出不变,常需复杂的文本条件令牌选择机制。本文提出时空令牌评分,这是一种简单轻量的模块,可在无需文本条件或令牌合并的情况下,跨视觉变换器和大型语言模型剪枝视觉令牌,并完全兼容端到端训练。通过辅助损失学习时间评分,并借助大型语言模型下游梯度实现空间评分,辅以我们高效的打包算法,该模块能在整个架构中剪枝50%的视觉令牌,在训练和推理阶段提升62%的效率,同时在13个长短视频问答任务中平均性能仅下降0.7%。随着视频采样帧数增加,效率增益进一步提升。在长视频问答任务中应用测试时缩放技术,相比基线模型可获得0.5-1%的性能提升。总体而言,时空令牌评分代表了一种新颖、简单而有效的统一全架构视觉令牌剪枝技术。