Abstract not available.
多模态大语言模型(MLLMs)正越来越多地部署于实际系统中,但其在对抗性提示下的安全性仍缺乏深入探究。我们采用一个由26名专业红队人员编写的固定基准测试集(包含726个对抗性提示),对MLLMs的有害性进行了两阶段评估。第一阶段评估了GPT-4o、Claude Sonnet 3.5、Pixtral 12B和Qwen VL Plus;第二阶段评估了它们的后续版本(GPT-5、Claude Sonnet 4.5、Pixtral Large和Qwen Omni),共获得82,256个人类有害性评分。不同模型系列间存在显著且持续的差异:Pixtral模型始终最为脆弱,而Claude模型因高拒绝率显得最安全。攻击成功率(ASR)显示出明显的对齐漂移现象:GPT和Claude模型在代际更新中ASR有所上升,而Pixtral和Qwen则呈现小幅下降。模态效应也随时间变化:第一阶段中纯文本提示更为有效,而第二阶段则出现模型特定的模式,GPT-5和Claude 4.5在不同模态下表现出近乎同等的脆弱性。这些发现表明,MLLMs的有害性在模型更新中既非一致也非稳定,凸显了需要建立纵向、多模态的基准测试来追踪其安全行为的演变。