Abstract not available.
超声影像解读需要同时具备精确的病灶定位和全面的临床推理能力,但现有方法通常只能擅长其中一种:专用检测器定位能力强但推理能力有限,而多模态大语言模型(MLLMs)推理灵活但在专业医疗领域的根基薄弱。我们提出Echo-α,一种面向超声影像解读的智能多模态推理模型,在调用与推理框架中统一了这些优势。Echo-α经过训练,能够协调器官专用检测器的输出,将其与全局视觉背景整合,并将由此得到的证据转化为超越纯检测器推理的实证诊断决策。该行为通过一个包含九项任务的监督课程建立,随后在不同奖励权衡下通过序列强化学习进行优化,分别得到用于病灶锚定的Echo-α-Grounding和用于最终诊断的Echo-α-Diagnosis。在基于多中心肾脏和乳腺超声基准的测试中,Echo-α在锚定和诊断方面均优于竞争基线。尤其是在跨中心测试集上,Echo-α-Grounding在肾脏/乳腺超声上的F1@0.5分别达到56.73%/43.78%,Echo-α-Diagnosis的总体准确率分别达到74.90%/49.20%。这些结果表明,智能多模态推理可以将专用检测器转化为可验证的临床证据,为构建更准确、更具可解释性且更易迁移的超声人工智能系统提供了一条实用路径。代码仓库位于https://github.com/MiliLab/Echo-Alpha。