MedVIGIL: Evaluating Trustworthy Medical VLMs Under Broken Visual Evidence<br>MedVIGIL：在视觉证据缺失情境下评估可信医学视觉语言模型<br>[摘要](abstracts/2605.07919.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

医学视觉语言模型通常基于完整的图像-问题对进行评估，但临床可信应用需要更强的特性：模型必须能够识别答案的实证基础失效的情况。我们通过扰动证据下的静默失败来研究这一问题，即当医学视觉问题被配以虚假前提、措辞扰动、仅知识改写或ROI受损图像时，模型仍能生成流畅的非拒绝答案。我们引入了MedVIGIL，这是一个包含300个案例的评估套件，数据来自四个公开医学视觉问答数据集，并由四位委员会认证的放射科医师全程监督：所有标准答案、拒绝选项、候选项集、改写版本、虚假前提陷阱、ROI框和临床风险等级均由临床医生编写。两位主治放射科医生并行标注每个案例，一位资深放射科医生整合发布清单，另有一位独立于构建过程的第四位放射科医生回答所有探针问题，提供人类参考基准。该数据集包含2,556个多项选择题探针、240个反事实三元组、经医生判定的风险等级和可回答性标志、ROI框以及配对开放型变体。我们报告了七个以正确性为条件的审计指标，并汇总为MedVIGIL综合分数（MCS），审计了16个具备视觉能力的模型及两个纯文本基线模型。独立放射科医生的MCS得分为83.3，静默失败率为5.8%，相较于最强审计模型（Claude Opus 4.7，得分69.2）提供了14.1个百分点的复合提升空间。该基准测试和评估框架已公开发布。

← Back