LUMEN: Longitudinal Multi-Modal Radiology Model for Prognosis and Diagnosis<br>LUMEN：用于预后与诊断的纵向多模态放射学模型<br>[摘要](abstracts/2602.21142.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（VLMs）已从通用应用发展到临床等专业领域，展现出在放射学决策支持中的潜力。一个前景广阔的应用是通过视觉与自然语言问答（VQA）界面分析胸部X光片（CXR）等放射影像数据，辅助放射科医生进行决策。当存在纵向影像数据时，放射科医生会分析时间变化，这对准确诊断和预后至关重要。手动纵向分析过程耗时，这促使我们开发一种能够提供预后能力的训练框架。我们提出了一种新颖的训练框架LUMEN，该框架针对纵向CXR解读进行了优化，利用多图像和多任务指令微调来提升预后与诊断性能。我们在公开可用的MIMIC-CXR及其相关Medical-Diff-VQA数据集上进行了实验。我们进一步构建了一个包含纵向研究的新型指令遵循数据集，以支持预后VQA任务的开发。我们的方法在诊断VQA任务上相比基线模型表现出显著改进，更重要的是，在预后能力方面显示出良好潜力。这些结果凸显了精心设计的指令微调VLMs在实现更准确、更具临床意义的纵向放射影像数据解读中的价值。

← Back