Abstract not available.
大型视觉语言模型(LVLMs)的快速发展已在视觉语言任务中实现了前所未有的性能。然而,由于大型语言模型(LLMs)的强大先验以及跨模态注意力未对齐,LVLMs常生成与视觉内容不一致的输出——即幻觉现象。为解决此问题,我们提出\textbf{Scalpel}方法,通过将注意力激活分布细化至更可信区域来减少幻觉。Scalpel在推理过程中预测Transformer各层中每个注意力头的可信方向,并相应调整激活值。该方法采用高斯混合模型捕捉信任与幻觉流形中注意力的多峰分布,并利用熵最优传输(等价于薛定谔桥问题)精确映射高斯分量。在缓解过程中,Scalpel根据分量隶属度及幻觉与信任激活间的映射关系,动态调整干预强度与方向。在多个数据集和基准上的广泛实验表明,Scalpel能有效缓解幻觉,性能超越现有方法,达到最先进水平。此外,Scalpel具有模型与数据无关性,无需额外计算,仅需单步解码即可完成。