MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning<br>MORE-R1：通过强化学习引导大型视觉语言模型进行多模态对象-实体关系提取的逐步推理<br>[摘要](abstracts/2603.09478.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态对象-实体关系提取（MORE）是信息提取研究中的一项挑战性任务，旨在识别视觉对象与文本实体之间的关系，需要复杂的多模态理解和跨模态推理能力。现有方法主要基于分类或生成，缺乏推理过程，难以处理MORE任务中的复杂提取场景，且存在可扩展性有限和中间推理透明度不足的问题。为应对这些挑战，我们提出了MORE-R1，这是一种新颖的模型，通过引入强化学习（RL）驱动的显式逐步推理，使大型视觉语言模型（LVLM）能够有效处理MORE任务。MORE-R1整合了一个两阶段训练过程，包括初始的监督微调（SFT）冷启动训练阶段和随后的强化学习阶段以优化推理能力。在初始阶段，我们设计了一种高效方法，自动构建针对MORE任务的高质量SFT数据集，其中包含细粒度的逐步推理，使模型能够学习有效的推理范式。在后续阶段，我们采用带有渐进样本混合策略的组相对策略优化（GRPO）强化学习算法，以稳定训练并进一步增强模型在困难样本上的推理能力。在MORE基准上的全面实验表明，MORE-R1实现了最先进的性能，相较于基线模型有显著提升。

← Back