One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding<br>每帧一令牌：迈向长视频理解的极致压缩<br>[摘要](abstracts/2604.14149.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

长视频理解对于视觉语言模型（VLMs）而言本质上是具有挑战性的，因为其涉及大量的视频帧。每帧视频通常会被扩展为数十或数百个令牌，而大型语言模型（LLMs）有限的上下文长度迫使VLMs稀疏地感知帧并丢失时间信息。为解决这一问题，我们探索了在最终LLM层实现每帧仅一个令牌的极致视频令牌压缩。我们的核心见解是，先前方法广泛采用的基于启发式的压缩容易导致信息丢失，这需要将LLM层监督为可学习的、渐进式的令牌级压缩模块（LP-Comp）。这种压缩使我们的VLM能够处理2至4倍更多的帧，同时提升性能。为进一步提高令牌效率，我们研究了帧级压缩，即通过LLM层的内部注意力分数选择与查询最相关的帧，称为问题条件压缩（QC-Comp）。与先前研究的一个显著区别是，我们通过将长视频分割为短片段并采用局部注意力，缓解了LLM注意力在长上下文中的位置偏差，即过度集中于序列开头和结尾的问题。综合来看，我们的令牌级和帧级压缩相结合，形成了一个用于长视频理解的极致压缩模型，命名为\name，实现了显著更大的压缩比，并支持更密集的帧采样。我们的\name模型基于VideoChat-Flash进行微调，通过一个数据高效的监督压缩调优阶段，仅需2.5%的监督微调数据，便在LVBench上将准确率从42.9%提升至46.2%，并在其他多个长视频基准测试中表现出增强性能。

← Back