Alignment Drift in Multimodal LLMs: A Two-Phase, Longitudinal Evaluation of Harm Across Eight Model Releases<br>多模态大语言模型中的对齐漂移：对八个模型版本有害性的两阶段纵向评估<br>[摘要](abstracts/2602.04739.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）正越来越多地部署于实际系统中，但其在对抗性提示下的安全性仍缺乏深入探究。我们采用一个由26名专业红队人员编写的固定基准测试集（包含726个对抗性提示），对MLLMs的有害性进行了两阶段评估。第一阶段评估了GPT-4o、Claude Sonnet 3.5、Pixtral 12B和Qwen VL Plus；第二阶段评估了它们的后续版本（GPT-5、Claude Sonnet 4.5、Pixtral Large和Qwen Omni），共获得82,256个人类有害性评分。不同模型系列间存在显著且持续的差异：Pixtral模型始终最为脆弱，而Claude模型因高拒绝率显得最安全。攻击成功率（ASR）显示出明显的对齐漂移现象：GPT和Claude模型在代际更新中ASR有所上升，而Pixtral和Qwen则呈现小幅下降。模态效应也随时间变化：第一阶段中纯文本提示更为有效，而第二阶段则出现模型特定的模式，GPT-5和Claude 4.5在不同模态下表现出近乎同等的脆弱性。这些发现表明，MLLMs的有害性在模型更新中既非一致也非稳定，凸显了需要建立纵向、多模态的基准测试来追踪其安全行为的演变。

← Back