Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models<br>面向视觉语言动作模型推理时安全性的概念词典学习方法<br>[摘要](abstracts/2602.01834.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言动作（VLA）模型通过将多模态指令转化为可执行行为，实现了感知-动作闭环，但这一能力也放大了安全风险：在大型语言模型中仅产生有害文本的越狱攻击，可能在具身系统中触发不安全的物理行为。现有防御方法（如对齐、过滤或提示强化）干预过晚或针对错误模态，导致融合后的表征仍可被利用。我们提出了一种基于概念的词典学习框架，用于推理时的安全控制。该方法通过从隐藏层激活中构建稀疏、可解释的词典，识别有害概念方向，并应用基于阈值的干预来抑制或阻断不安全激活。在Libero-Harm、BadRobot、RoboPair和IS-Bench上的实验表明，我们的方法实现了最先进的防御性能，将攻击成功率降低超过70%，同时保持任务成功率。关键的是，该框架为即插即用且模型无关，无需重新训练，并能与多种VLA模型无缝集成。据我们所知，这是首个面向具身系统的推理时基于概念的安全方法，推动了VLA模型的可解释性与安全部署。

← Back