Scalpel: Fine-Grained Alignment of Attention Activation Manifolds via Mixture Gaussian Bridges to Mitigate Multimodal Hallucination<br>手术刀：通过混合高斯桥精细对齐注意力激活流形以缓解多模态幻觉<br>[摘要](abstracts/2602.09541.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（LVLMs）的快速发展已在视觉语言任务中实现了前所未有的性能。然而，由于大型语言模型（LLMs）的强大先验以及跨模态注意力未对齐，LVLMs常生成与视觉内容不一致的输出——即幻觉现象。为解决此问题，我们提出\textbf{Scalpel}方法，通过将注意力激活分布细化至更可信区域来减少幻觉。Scalpel在推理过程中预测Transformer各层中每个注意力头的可信方向，并相应调整激活值。该方法采用高斯混合模型捕捉信任与幻觉流形中注意力的多峰分布，并利用熵最优传输（等价于薛定谔桥问题）精确映射高斯分量。在缓解过程中，Scalpel根据分量隶属度及幻觉与信任激活间的映射关系，动态调整干预强度与方向。在多个数据集和基准上的广泛实验表明，Scalpel能有效缓解幻觉，性能超越现有方法，达到最先进水平。此外，Scalpel具有模型与数据无关性，无需额外计算，仅需单步解码即可完成。

← Back