SAKED: Mitigating Hallucination in Large Vision-Language Models via Stability-Aware Knowledge Enhanced Decoding<br>SAKED:通过稳定性感知的知识增强解码缓解大型视觉语言模型中的幻觉问题<br>[摘要](abstracts/2602.09825.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型(LVLMs)中的幻觉问题在实际应用中带来了显著的安全性和可靠性风险。受人类在不确定或犹豫时更容易出错的观察启发,我们研究了模型内部知识的不稳定性如何导致LVLM产生幻觉。我们从注意力头、模型层和解码标记三个角度进行了广泛的实证分析,并识别出三种关键的幻觉模式:(i) 注意力头间的视觉激活漂移,(ii) 跨层的显著知识波动,以及(iii) 相邻输出标记间的视觉焦点分散。基于这些发现,我们提出了稳定性感知的知识增强解码(SAKED),该方法引入了层级的知识稳定性分数(KSS)来量化整个模型中的知识稳定性。通过对比最具稳定性感知和最不具稳定性感知的层,SAKED抑制了解码噪声,并动态利用最可靠的内部知识来生成忠实的标记。此外,SAKED无需训练,可以无缝集成到不同的架构中。大量实验表明,SAKED在各种模型、任务和基准测试中实现了最先进的幻觉缓解性能。

← Back