Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum<br>Wiki-R1：通过数据与采样课程激励基于知识的视觉问答中的多模态推理<br>[摘要](abstracts/2603.05256.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

基于知识的视觉问答（KB-VQA）要求模型通过整合外部知识来回答关于图像的问题，由于检索噪声以及知识库的结构化与百科全书特性，这带来了显著挑战。这些特征与预训练的多模态大语言模型（MLLMs）存在分布差异，使得在后续训练阶段难以进行有效的推理和领域适应。在本研究中，我们提出了《Wiki-R1》，一种基于数据生成的课程强化学习框架，系统性地激励MLLMs在KB-VQA中进行推理。Wiki-R1构建了一系列与模型能力演进相匹配的训练分布，弥合了从预训练到KB-VQA目标分布之间的差距。我们引入了《可控课程数据生成》，通过操纵检索器生成指定难度级别的样本，以及一种《课程采样策略》，选择在强化学习更新中可能产生非零优势的信息丰富样本。样本难度通过观测到的奖励进行估计，并传播到未观测样本以指导学习。在两个KB-VQA基准测试——百科全书VQA和InfoSeek上的实验表明，Wiki-R1取得了新的最先进成果，将百科全书VQA的准确率从35.5%提升至37.1%，InfoSeek的准确率从40.1%提升至44.1%。项目页面可在https://artanic30.github.io/project_pages/WikiR1/访问。

← Back