Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients<br>基于量化感知积分梯度的大规模视觉语言模型细粒度后训练量化<br>[摘要](abstracts/2603.17809.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大规模视觉语言模型（LVLMs）在需要多模态交互的一系列下游任务中取得了显著成功，但其强大的能力伴随着巨大的计算和内存开销，阻碍了实际部署。在众多加速技术中，后训练量化是一种流行且有效的策略，用于降低内存成本并加速推理。然而，现有的LVLM量化方法通常在模态层面衡量令牌敏感性，未能捕捉复杂的跨令牌交互，且在令牌层面定量测量量化误差方面存在不足。随着令牌在模型内部交互，模态之间的区分逐渐减弱，这表明需要细粒度的校准。受机制可解释性中公理化归因的启发，我们引入了一种基于量化感知积分梯度（QIG）的细粒度量化策略，该方法利用积分梯度定量评估令牌敏感性，并将粒度从模态层面推进到令牌层面，同时反映模态间和模态内的动态特性。在W4A8和W3A16设置下对多个LVLMs进行的广泛实验表明，我们的方法在可忽略的延迟开销下，提升了不同模型和基准测试的准确率。例如，在3位仅权重量化下，我们的方法将LLaVA-onevision-7B的平均准确率提高了1.60%，使其与全精度版本的差距缩小至仅1.33%。代码可在https://github.com/ucas-xiang/QIG获取。

← Back