SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues<br>SAVeS:通过语义线索引导视觉语言模型的安全判断<br>[摘要](abstracts/2603.19092.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型(VLMs)正越来越多地部署在现实世界和具身环境中,其中安全决策依赖于视觉上下文。然而,目前尚不清楚是哪些视觉证据驱动了这些判断。我们研究了VLM中的多模态安全行为是否可以通过简单的语义线索进行引导。我们引入了一种语义引导框架,该框架在不改变底层场景内容的情况下,应用受控的文本、视觉和认知干预。为了评估这些影响,我们提出了SAVeS——一个基于语义线索的情境安全基准,以及一个区分行为拒绝、基于视觉的安全推理和错误拒绝的评估协议。在多个VLMs及一个额外的最先进基准上的实验表明,安全决策对语义线索高度敏感,这表明模型依赖于学习到的视觉-语言关联,而非基于视觉的扎实理解。我们进一步证明,自动化引导流程可以利用这些机制,突显了多模态安全系统中潜在的脆弱性。

← Back