Abstract not available.
当前的自回归视觉语言模型通常依赖大量视觉令牌来表示图像,导致在推理时尤其需要更多计算资源。为解决这一问题,我们提出了Mask-LLaVA框架,该框架利用不同层级的视觉特征,为自回归视觉语言模型创建紧凑且信息丰富的视觉表示。具体而言,我们将基于掩码的物体表示与全局令牌和局部补丁令牌相结合。尽管训练时使用所有令牌,但结果表明,所得模型在测试时能够灵活地减少特别是基于掩码的物体令牌数量,从而允许在推理过程中调整令牌数量,而无需重新训练模型且性能不会显著下降。我们在标准基准测试套件上评估了所提方法,结果显示其与当前令牌高效方法竞争激烈,且仅使用一小部分视觉令牌即可达到与原始LLaVA基线相当的性能。我们的分析表明,结合多层级特征能够以更少的令牌实现高效学习,同时允许在测试时动态选择令牌以保持良好的性能。