MApLe: Multi-instance Alignment of Diagnostic Reports and Large Medical Images<br>MApLe：诊断报告与大型医学图像的多实例对齐<br>[摘要](abstracts/2604.13970.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在诊断报告中，专家将复杂的影像数据编码为具有临床指导意义的信息。他们描述细微的病理发现，这些发现在其解剖学背景下具有重要意义。报告遵循相对一致的结构，用寥寥数语表达诊断信息，这些信息常与微小但关键的图像观察点相关联。标准的视觉语言模型难以识别这些信息丰富的文本成分与图像中微小位置之间的关联。为此，我们提出“MApLe”，一种多任务、多实例的视觉语言对齐方法，以克服这些限制。它解耦了解剖区域与诊断发现的概念，并以分块方式将局部图像信息与句子关联起来。我们的方法包括一个经过训练以捕捉句子中解剖和诊断概念的文本嵌入模型、一个基于解剖结构进行条件编码的分块图像编码器，以及这些表示的多实例对齐机制。我们证明MApLe能够成功对齐自由文本报告中的不同图像区域和多个诊断发现。实验表明，在多项下游任务评估中，我们的模型相较于最先进的基线模型，对齐性能显著提升。代码可在https://github.com/cirmuw/MApLe获取。

← Back