AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models<br>AGMark：面向大型视觉语言模型的注意力引导动态水印技术<br>[摘要](abstracts/2602.09611.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

水印技术已成为大型视觉语言模型（LVLMs）中内容溯源与知识产权保护的关键解决方案。然而，视觉无关的水印可能引入视觉上无关的标记，并通过施加无差别的伪随机偏差破坏视觉基础。此外，现有的视觉专用水印依赖于对视觉关键权重的静态一次性估计，并在确定受保护标记比例时忽略了权重分布密度。这种设计未能考虑生成过程中视觉依赖性的动态变化，并可能在长尾部分引入低质量标记。为解决这些挑战，我们提出了注意力引导动态水印（AGMark），这是一种新颖的框架，可在严格保持视觉保真度的同时嵌入可检测信号。在每个解码步骤中，AGMark首先基于注意力权重动态识别视觉相关性的语义关键证据，并结合上下文感知的连贯性线索，从而产生更自适应且校准良好的证据权重分布。随后，它通过联合考虑不确定性感知（标记熵）和证据校准（权重密度）来确定语义关键标记的比例，从而实现自适应词汇划分以避免无关标记。实证结果证实，AGMark优于传统方法，显著提升了生成质量，并在生成后期阶段尤其增强了视觉语义保真度。该框架在保持高度竞争力的检测准确率（至少99.36% AUC）和强大的攻击鲁棒性（至少88.61% AUC）的同时，未牺牲推理效率，有效确立了可靠性保持的多模态水印新标准。

← Back