MediX-R1: Open Ended Medical Reinforcement Learning<br>MediX-R1：开放式医学强化学习框架<br>[摘要](abstracts/2602.23363.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们推出MediX-R1，这是一个面向医学多模态大语言模型（MLLMs）的开放式强化学习（RL）框架，能够生成基于临床背景的自由形式答案，超越传统多项选择题的限制。MediX-R1通过基于分组的强化学习对基线视觉语言骨干模型进行微调，并采用专为医学推理设计的复合奖励机制：包括基于LLM的准确性奖励（通过严格的YES/NO决策判断语义正确性）、基于医学嵌入的语义奖励（以捕捉同义表达和术语变体），以及轻量级的格式和模态奖励（用于强化可解释推理和模态识别）。这种多信号设计为开放式输出提供了稳定且信息丰富的反馈，弥补了传统可验证或仅限多项选择题奖励的不足。为衡量进展，我们提出了一个统一的评估框架，适用于纯文本及图像+文本任务，采用基于参考的LLM作为评判者，替代脆弱的字符串重叠指标，以捕捉语义正确性、推理能力和上下文对齐。尽管仅使用约51K条指令示例，MediX-R1在标准医学LLM（纯文本）和VLM（图像+文本）基准测试中均取得优异成果，超越了强大的开源基线模型，并在开放式临床任务上实现了显著提升。我们的结果表明，结合全面奖励信号和基于LLM评估的开放式强化学习，是实现多模态模型中可靠医学推理的可行路径。训练后的模型、精选数据集及源代码已发布于https://medix.cvmbzuai.com。

← Back