Abstract not available.
多模态对象-实体关系提取(MORE)是信息提取研究中的一项挑战性任务,旨在识别视觉对象与文本实体之间的关系,需要复杂的多模态理解和跨模态推理能力。现有方法主要基于分类或生成,缺乏推理过程,难以处理MORE任务中的复杂提取场景,且存在可扩展性有限和中间推理透明度不足的问题。为应对这些挑战,我们提出了MORE-R1,这是一种新颖的模型,通过引入强化学习(RL)驱动的显式逐步推理,使大型视觉语言模型(LVLM)能够有效处理MORE任务。MORE-R1整合了一个两阶段训练过程,包括初始的监督微调(SFT)冷启动训练阶段和随后的强化学习阶段以优化推理能力。在初始阶段,我们设计了一种高效方法,自动构建针对MORE任务的高质量SFT数据集,其中包含细粒度的逐步推理,使模型能够学习有效的推理范式。在后续阶段,我们采用带有渐进样本混合策略的组相对策略优化(GRPO)强化学习算法,以稳定训练并进一步增强模型在困难样本上的推理能力。在MORE基准上的全面实验表明,MORE-R1实现了最先进的性能,相较于基线模型有显著提升。