Revealing Physical-World Semantic Vulnerabilities: Universal Adversarial Patches for Infrared Vision-Language Models<br>揭示物理世界语义漏洞：面向红外视觉语言模型的通用对抗性补丁<br>[摘要](abstracts/2604.03117.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

红外视觉语言模型（IR-VLMs）已成为低能见度环境下多模态感知的有前景范式，但其对抗攻击的鲁棒性仍鲜有研究。现有对抗性补丁方法主要针对封闭集设置下的RGB模型设计，难以直接适用于红外VLM的开放式语义理解与物理部署需求。为填补这一空白，我们提出通用曲网格补丁（UCGP），一种面向IR-VLM的通用物理对抗性补丁框架。UCGP集成了曲网格参数化方法，以生成连续、低频且可部署的补丁，并采用统一表征驱动目标，促进子空间偏离、拓扑结构破坏与隐蔽性。为提升真实世界部署及域偏移下的鲁棒性，我们进一步引入元差分进化算法与EOT增强的薄板样条变形建模。UCGP不直接操纵标签或提示，而是通过干扰视觉表征空间来削弱跨模态语义对齐。大量实验表明，UCGP能持续破坏多种IR-VLM架构的语义理解能力，同时保持跨模型可迁移性、跨数据集泛化性、真实世界物理有效性及防御鲁棒性。这些发现揭示了当前红外多模态系统中一个先前被忽视的鲁棒性漏洞。

← Back