Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients<br>基于量化感知积分梯度的大规模视觉语言模型细粒度后训练量化<br>[摘要](abstracts/2603.17809.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大规模视觉语言模型(LVLMs)在需要多模态交互的一系列下游任务中取得了显著成功,但其强大的能力伴随着巨大的计算和内存开销,阻碍了实际部署。在众多加速技术中,后训练量化是一种流行且有效的策略,用于降低内存成本并加速推理。然而,现有的LVLM量化方法通常在模态层面衡量令牌敏感性,未能捕捉复杂的跨令牌交互,且在令牌层面定量测量量化误差方面存在不足。随着令牌在模型内部交互,模态之间的区分逐渐减弱,这表明需要细粒度的校准。受机制可解释性中公理化归因的启发,我们引入了一种基于量化感知积分梯度(QIG)的细粒度量化策略,该方法利用积分梯度定量评估令牌敏感性,并将粒度从模态层面推进到令牌层面,同时反映模态间和模态内的动态特性。在W4A8和W3A16设置下对多个LVLMs进行的广泛实验表明,我们的方法在可忽略的延迟开销下,提升了不同模型和基准测试的准确率。例如,在3位仅权重量化下,我们的方法将LLaVA-onevision-7B的平均准确率提高了1.60%,使其与全精度版本的差距缩小至仅1.33%。代码可在https://github.com/ucas-xiang/QIG获取。

← Back