MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs<br>MHSA:一种通过引导注意力减轻大型视觉语言模型幻觉的轻量级框架<br>[摘要](abstracts/2605.14966.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型(LVLMs)在多种多模态任务中展现出卓越的性能,但始终存在幻觉问题,即生成与视觉输入不一致的内容。先前的工作DHCP(通过跨模态注意力模式检测幻觉)从跨模态注意力的角度探索了幻觉检测,但并未解决幻觉减轻问题。本文提出MHSA(通过引导注意力减轻幻觉),这是一种轻量级框架,通过学习纠正LVLMs中的跨模态注意力模式来减轻幻觉。MHSA训练一个简单的三层MLP生成器,以产生修正后的注意力,并通过来自DHCP鉴别器和LVLM自身的监督信号进行指导。在推理阶段,MHSA仅需将原始跨模态注意力替换为修正后的注意力,即可在多种数据集和LVLMs中同时减轻判别性幻觉和生成性幻觉,而无需修改任何LVLM参数。通过将跨模态注意力机制从幻觉检测扩展到幻觉减轻,MHSA为LVLMs中的幻觉研究提供了全新视角,并有助于提升其可靠性。

← Back