SAVeS: Steering Safety Judgments in Vision-Language Models via Semantic Cues<br>SAVeS：通过语义线索引导视觉语言模型的安全判断<br>[摘要](abstracts/2603.19092.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）正越来越多地部署在现实世界和具身环境中，其中安全决策依赖于视觉上下文。然而，目前尚不清楚是哪些视觉证据驱动了这些判断。我们研究了VLM中的多模态安全行为是否可以通过简单的语义线索进行引导。我们引入了一种语义引导框架，该框架在不改变底层场景内容的情况下，应用受控的文本、视觉和认知干预。为了评估这些影响，我们提出了SAVeS——一个基于语义线索的情境安全基准，以及一个区分行为拒绝、基于视觉的安全推理和错误拒绝的评估协议。在多个VLMs及一个额外的最先进基准上的实验表明，安全决策对语义线索高度敏感，这表明模型依赖于学习到的视觉-语言关联，而非基于视觉的扎实理解。我们进一步证明，自动化引导流程可以利用这些机制，突显了多模态安全系统中潜在的脆弱性。

← Back