Abstract not available.
医学视觉语言模型通常基于完整的图像-问题对进行评估,但临床可信应用需要更强的特性:模型必须能够识别答案的实证基础失效的情况。我们通过扰动证据下的静默失败来研究这一问题,即当医学视觉问题被配以虚假前提、措辞扰动、仅知识改写或ROI受损图像时,模型仍能生成流畅的非拒绝答案。我们引入了MedVIGIL,这是一个包含300个案例的评估套件,数据来自四个公开医学视觉问答数据集,并由四位委员会认证的放射科医师全程监督:所有标准答案、拒绝选项、候选项集、改写版本、虚假前提陷阱、ROI框和临床风险等级均由临床医生编写。两位主治放射科医生并行标注每个案例,一位资深放射科医生整合发布清单,另有一位独立于构建过程的第四位放射科医生回答所有探针问题,提供人类参考基准。该数据集包含2,556个多项选择题探针、240个反事实三元组、经医生判定的风险等级和可回答性标志、ROI框以及配对开放型变体。我们报告了七个以正确性为条件的审计指标,并汇总为MedVIGIL综合分数(MCS),审计了16个具备视觉能力的模型及两个纯文本基线模型。独立放射科医生的MCS得分为83.3,静默失败率为5.8%,相较于最强审计模型(Claude Opus 4.7,得分69.2)提供了14.1个百分点的复合提升空间。该基准测试和评估框架已公开发布。