Abstract not available.
胸部X光在胸部疾病诊断中扮演核心角色,其解读本质上需要多步骤、基于证据的推理。然而,大型视觉语言模型(LVLMs)常生成看似合理但未忠实基于诊断证据的回应,且提供的可验证视觉证据有限,同时需昂贵重训练以支持新诊断任务,这限制了其在临床环境中的可靠性与适应性。为应对这些局限,我们提出CXReasonAgent,一种诊断智能体,它将大型语言模型(LLM)与临床诊断工具相结合,利用图像衍生的诊断和视觉证据进行基于证据的诊断推理。为评估这些能力,我们引入了CXReasonDial,一个包含12项诊断任务、1,946个对话的多轮对话基准,并证明CXReasonAgent能生成忠实基于证据的回应,相比LVLMs实现更可靠且可验证的诊断推理。这些发现凸显了整合临床诊断工具的重要性,尤其是在安全关键的临床环境中。