Abstract not available.
在放射学报告生成中安全部署大型视觉语言模型(LVLMs)不仅需要准确的预测,还需提供临床可解释的指标,以指示何时应对输出进行彻底审查,从而实现选择性放射科医师验证,并降低幻觉发现影响临床决策的风险。一种直观的方法是使用言语化置信度,即模型明确陈述其确定性。然而,当前最先进的语言模型往往过于自信,且在多模态场景(如放射学报告生成)中关于校准的研究有限。为填补这一空白,我们引入了ConRad(放射学报告置信度校准),这是一个基于强化学习的框架,用于微调医学LVLMs,使其在生成放射学报告的同时产生校准的言语化置信度估计。我们研究了两种设置:单一报告级置信度评分和句子级变体,后者为每个声明分配一个置信度。两者均使用GRPO算法进行训练,其奖励函数基于对数评分规则,通过惩罚校准错误来激励真实的自评估,并在奖励最大化下保证最优校准。实验表明,ConRad显著改善了校准效果,并优于竞争方法。在临床评估中,我们证明ConRad的报告级评分与临床医生的判断高度一致。通过突出显示完整报告或低置信度陈述以供针对性审查,ConRad能够支持更安全的AI辅助报告生成临床整合。