When LLaVA Meets Objects: Token Composition for Vision-Language-Models<br>当LLaVA遇见物体：视觉语言模型的令牌组合<br>[摘要](abstracts/2602.04864.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前的自回归视觉语言模型通常依赖大量视觉令牌来表示图像，导致在推理时尤其需要更多计算资源。为解决这一问题，我们提出了Mask-LLaVA框架，该框架利用不同层级的视觉特征，为自回归视觉语言模型创建紧凑且信息丰富的视觉表示。具体而言，我们将基于掩码的物体表示与全局令牌和局部补丁令牌相结合。尽管训练时使用所有令牌，但结果表明，所得模型在测试时能够灵活地减少特别是基于掩码的物体令牌数量，从而允许在推理过程中调整令牌数量，而无需重新训练模型且性能不会显著下降。我们在标准基准测试套件上评估了所提方法，结果显示其与当前令牌高效方法竞争激烈，且仅使用一小部分视觉令牌即可达到与原始LLaVA基线相当的性能。我们的分析表明，结合多层级特征能够以更少的令牌实现高效学习，同时允许在测试时动态选择令牌以保持良好的性能。

← Back