Demographic Fairness in Multimodal LLMs: A Benchmark of Gender and Ethnicity Bias in Face Verification<br>多模态大语言模型中的人口统计学公平性:人脸验证中的性别与种族偏见基准研究<br>[摘要](abstracts/2603.25613.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型(MLLMs)近期被探索用作人脸验证系统,以判断两张人脸图像是否属于同一人。与专用的人脸识别系统不同,MLLMs通过视觉提示处理此任务,并依赖其通用的视觉与推理能力。然而,这些模型在人口统计学公平性方面的表现仍鲜有研究。本文提出了一项基准研究,评估了来自六个模型家族的九个开源MLLMs(参数量从2B到8B),在IJB-C和RFW人脸验证协议下,针对四个种族群体和两个性别群体的表现。我们使用等错误率和多个操作点下的真实匹配率来衡量各人口统计组的验证准确率,并通过四个基于错误匹配率的公平性指标量化人口统计学差异。结果显示,研究中唯一专注于人脸任务的模型FaceLLM-8B,在两个基准测试中均显著优于通用型MLLMs。观察到的偏见模式与传统人脸识别中常见的报告不同,受影响最严重的群体因基准测试和模型而异。我们还发现,最准确的模型未必最公平,而整体准确率较差的模型可能因在所有人口统计组中均产生较高的错误率而显得公平。

← Back