Abstract not available.
通用医学图像分割旨在利用单一基础模型处理多种成像模态下的多样化任务。然而,现有方法通常严重依赖手动视觉提示或检索的参考图像,这限制了其自动化程度与鲁棒性。此外,跨模态的简单联合训练往往难以应对巨大的域偏移。为克服这些局限,我们提出了概念到像素(C2P),一种新颖的无提示通用分割框架。C2P明确将解剖知识分解为两个组成部分:几何表示与语义表示。它利用多模态大语言模型(MLLMs)将抽象的、高层次的医学概念蒸馏为可学习的语义令牌,并引入显式监督的几何令牌以强化通用的物理与结构约束。这些解耦的令牌与图像特征深度交互,生成针对特定输入的动态核,用于精确的掩码预测。此外,我们提出了一种几何感知推理共识机制,该机制利用模型预测的几何约束来评估预测可靠性并抑制异常值。在包含七种模态、八个多样化数据集的统一基准上进行的大量实验与分析表明,与通用或单一模型方法相比,我们的联合训练方法具有显著优越性。值得注意的是,我们的统一模型展现出强大的泛化能力,不仅在涉及未见案例的零样本任务中取得了令人印象深刻的结果,还在跨模态的相似任务迁移中表现优异。代码发布于:https://github.com/Yundi218/Concept-to-Pixel