Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation<br>Echo-α：面向超声影像解读的大型智能多模态推理模型<br>[摘要](abstracts/2604.28011.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

超声影像解读需要同时具备精确的病灶定位和全面的临床推理能力，但现有方法通常只能擅长其中一种：专用检测器定位能力强但推理能力有限，而多模态大语言模型（MLLMs）推理灵活但在专业医疗领域的根基薄弱。我们提出Echo-α，一种面向超声影像解读的智能多模态推理模型，在调用与推理框架中统一了这些优势。Echo-α经过训练，能够协调器官专用检测器的输出，将其与全局视觉背景整合，并将由此得到的证据转化为超越纯检测器推理的实证诊断决策。该行为通过一个包含九项任务的监督课程建立，随后在不同奖励权衡下通过序列强化学习进行优化，分别得到用于病灶锚定的Echo-α-Grounding和用于最终诊断的Echo-α-Diagnosis。在基于多中心肾脏和乳腺超声基准的测试中，Echo-α在锚定和诊断方面均优于竞争基线。尤其是在跨中心测试集上，Echo-α-Grounding在肾脏/乳腺超声上的F1@0.5分别达到56.73%/43.78%，Echo-α-Diagnosis的总体准确率分别达到74.90%/49.20%。这些结果表明，智能多模态推理可以将专用检测器转化为可验证的临床证据，为构建更准确、更具可解释性且更易迁移的超声人工智能系统提供了一条实用路径。代码仓库位于https://github.com/MiliLab/Echo-Alpha。

← Back