Test-Time Attention Purification for Backdoored Large Vision Language Models<br>针对后门大型视觉语言模型的测试时注意力净化<br>[摘要](abstracts/2603.12989.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大型视觉语言模型(LVLMs)在多模态任务上表现出色,但其在微调过程中易受后门攻击的威胁,攻击者通过向训练数据中嵌入触发器样本来植入恶意行为,这些行为可在测试时被激活。现有防御方法通常依赖于使用干净数据重新训练被后门污染的模型参数(如适配器或LoRA模块),这不仅计算成本高昂,还常导致模型性能下降。本研究为LVLMs中的后门行为提供了新的机制性理解:触发器并非通过低层视觉模式影响预测,而是通过异常的跨模态注意力重新分配发挥作用,即携带触发器的视觉标记会窃取文本上下文的注意力——我们称之为注意力窃取现象。基于此,我们提出了CleanSight,一种无需训练、即插即用的防御方法,完全在测试时运行。CleanSight(i)通过分析选定跨模态融合层中的视觉-文本注意力相对比例来检测中毒输入,并(ii)通过选择性剪枝可疑的高注意力视觉标记来净化输入,从而中和后门激活。大量实验表明,CleanSight在不同数据集和后门攻击类型上均显著优于现有的基于像素的净化防御方法,同时在干净样本和中毒样本上均能保持模型的实用性。

← Back