Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models<br>面向视觉语言动作模型推理时安全性的概念词典学习方法<br>[摘要](abstracts/2602.01834.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言动作(VLA)模型通过将多模态指令转化为可执行行为,实现了感知-动作闭环,但这一能力也放大了安全风险:在大型语言模型中仅产生有害文本的越狱攻击,可能在具身系统中触发不安全的物理行为。现有防御方法(如对齐、过滤或提示强化)干预过晚或针对错误模态,导致融合后的表征仍可被利用。我们提出了一种基于概念的词典学习框架,用于推理时的安全控制。该方法通过从隐藏层激活中构建稀疏、可解释的词典,识别有害概念方向,并应用基于阈值的干预来抑制或阻断不安全激活。在Libero-Harm、BadRobot、RoboPair和IS-Bench上的实验表明,我们的方法实现了最先进的防御性能,将攻击成功率降低超过70%,同时保持任务成功率。关键的是,该框架为即插即用且模型无关,无需重新训练,并能与多种VLA模型无缝集成。据我们所知,这是首个面向具身系统的推理时基于概念的安全方法,推动了VLA模型的可解释性与安全部署。

← Back