MHSA: A Lightweight Framework for Mitigating Hallucinations via Steered Attention in LVLMs<br>MHSA：一种通过引导注意力减轻大型视觉语言模型幻觉的轻量级框架<br>[摘要](abstracts/2605.14966.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（LVLMs）在多种多模态任务中展现出卓越的性能，但始终存在幻觉问题，即生成与视觉输入不一致的内容。先前的工作DHCP（通过跨模态注意力模式检测幻觉）从跨模态注意力的角度探索了幻觉检测，但并未解决幻觉减轻问题。本文提出MHSA（通过引导注意力减轻幻觉），这是一种轻量级框架，通过学习纠正LVLMs中的跨模态注意力模式来减轻幻觉。MHSA训练一个简单的三层MLP生成器，以产生修正后的注意力，并通过来自DHCP鉴别器和LVLM自身的监督信号进行指导。在推理阶段，MHSA仅需将原始跨模态注意力替换为修正后的注意力，即可在多种数据集和LVLMs中同时减轻判别性幻觉和生成性幻觉，而无需修改任何LVLM参数。通过将跨模态注意力机制从幻觉检测扩展到幻觉减轻，MHSA为LVLMs中的幻觉研究提供了全新视角，并有助于提升其可靠性。

← Back