Abstract not available.
基础模型日益展现出支持交互式、自主化工作流程的潜力,以辅助研究人员在图像数据分析与解读过程中。这类工作流程通常需要将视觉与语言耦合,以提供自然语言界面。然而,在许多研究和临床场景中,学习这种耦合所需的配对图像-文本数据稀缺且难以获取。其中一个场景是对细胞体染色的人脑组织切片进行显微分析,这有助于研究细胞构筑学:细胞密度与形态及其层状和区域组织。本文提出一种标签介导的方法,通过仅利用标签将图像与文本关联,无需精心配对的图像-文本数据,即可从图像生成有意义的描述。给定标签后,我们自动从相关文献中挖掘区域描述,并将其用作反映典型细胞构筑学属性的合成描述。随后,通过图像到文本的训练目标,将现有的细胞构筑学视觉基础模型(CytoNet)与大型语言模型耦合,使得显微图像区域能够以自然语言进行描述。在57个脑区中,该方法生成了合理的区域级描述,并通过明确拒绝未见区域支持开放集使用。对于范围内图像块,其细胞构筑学参考标签匹配准确率达90.6%;在区域标签被掩蔽的情况下,其描述仍具有足够区分度,在8项测试中以68.6%的准确率恢复区域信息。这些结果表明,弱监督的标签介导配对足以将现有生物医学视觉基础模型与语言连接,为在细粒度配对标注稀缺的领域中集成自然语言提供了实用方案。