Abstract not available.
长视频理解对于视觉语言模型(VLMs)而言本质上是具有挑战性的,因为其涉及大量的视频帧。每帧视频通常会被扩展为数十或数百个令牌,而大型语言模型(LLMs)有限的上下文长度迫使VLMs稀疏地感知帧并丢失时间信息。为解决这一问题,我们探索了在最终LLM层实现每帧仅一个令牌的极致视频令牌压缩。我们的核心见解是,先前方法广泛采用的基于启发式的压缩容易导致信息丢失,这需要将LLM层监督为可学习的、渐进式的令牌级压缩模块(LP-Comp)。这种压缩使我们的VLM能够处理2至4倍更多的帧,同时提升性能。为进一步提高令牌效率,我们研究了帧级压缩,即通过LLM层的内部注意力分数选择与查询最相关的帧,称为问题条件压缩(QC-Comp)。与先前研究的一个显著区别是,我们通过将长视频分割为短片段并采用局部注意力,缓解了LLM注意力在长上下文中的位置偏差,即过度集中于序列开头和结尾的问题。综合来看,我们的令牌级和帧级压缩相结合,形成了一个用于长视频理解的极致压缩模型,命名为\name,实现了显著更大的压缩比,并支持更密集的帧采样。我们的\name模型基于VideoChat-Flash进行微调,通过一个数据高效的监督压缩调优阶段,仅需2.5%的监督微调数据,便在LVBench上将准确率从42.9%提升至46.2%,并在其他多个长视频基准测试中表现出增强性能。