Understanding the Role of Hallucination in Reinforcement Post-Training of Multimodal Reasoning Models<br>理解幻觉在多模态推理模型强化后训练中的作用<br>[摘要](abstracts/2604.03179.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近期强化学习在大规模推理模型中的成功，推动了其在多模态大语言模型后训练中的应用，以增强视觉推理能力。尽管许多研究报道了性能提升，但强化学习训练是否真正使模型学会利用视觉信息仍不明确。本研究提出幻觉作为线索框架，一个旨在从模型幻觉角度分析基于强化学习的后训练对多模态推理模型影响的分析框架。具体而言，我们引入了幻觉诱导的模态特定干扰，通过移除或替换推导正确答案所需的关键信息，迫使模型通过幻觉进行推理。通过在训练和评估中应用这些干扰，我们的框架为诊断强化学习训练动态和理解数据集内在特性提供了独特视角。通过对多个多模态推理基准的广泛实验与分析，我们发现模型幻觉在强化学习训练中的作用比以往认知更为显著。例如，在纯幻觉诱导设置下进行强化学习后训练，仍能显著提升模型的推理性能，在某些情况下甚至超越标准训练。这些发现挑战了关于多模态大语言模型推理训练的普遍假设，并激励开发更具模态感知能力的基于强化学习的训练设计。

← Back