TSHA: A Benchmark for Visual Language Models in Trustworthy Safety Hazard Assessment Scenarios<br>TSHA：面向可信安全风险评估场景的视觉语言模型基准<br>[摘要](abstracts/2603.29759.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）的最新进展加速了其在室内安全风险评估中的应用。然而，现有基准存在三个根本性局限：（1）过度依赖通过仿真软件构建的合成数据集，导致与现实环境存在显著领域差异；（2）安全任务过于简化，对风险类型和场景类型施加了人为限制，从而限制了模型的泛化能力；（3）缺乏严格的评估协议，无法全面评估模型在复杂家庭安全场景中的能力。为应对这些挑战，我们提出了TSHA（可信安全风险评估基准），这是一个包含81,809个精心筛选训练样本的综合基准，样本来源于四个互补渠道：现有室内数据集、网络图像、AIGC生成图像以及新采集的真实图像。该基准集还包含一个极具挑战性的测试集（1707个样本），不仅涵盖从训练分布中精选的子集，还新增了包含多重安全隐患的视频和全景图像，用于评估模型在复杂安全场景中的鲁棒性。对23个主流视觉语言模型的大规模实验表明，当前模型在安全风险评估方面缺乏稳健能力。值得注意的是，基于TSHA训练集微调的模型不仅在TSHA测试集上实现了高达+18.3分的性能提升，还在其他基准测试中展现出更强的泛化能力，这充分证明了TSHA基准的重要贡献与价值。

← Back