Abstract not available.
基于知识的视觉问答(KB-VQA)要求模型通过整合外部知识来回答关于图像的问题,由于检索噪声以及知识库的结构化与百科全书特性,这带来了显著挑战。这些特征与预训练的多模态大语言模型(MLLMs)存在分布差异,使得在后续训练阶段难以进行有效的推理和领域适应。在本研究中,我们提出了《Wiki-R1》,一种基于数据生成的课程强化学习框架,系统性地激励MLLMs在KB-VQA中进行推理。Wiki-R1构建了一系列与模型能力演进相匹配的训练分布,弥合了从预训练到KB-VQA目标分布之间的差距。我们引入了《可控课程数据生成》,通过操纵检索器生成指定难度级别的样本,以及一种《课程采样策略》,选择在强化学习更新中可能产生非零优势的信息丰富样本。样本难度通过观测到的奖励进行估计,并传播到未观测样本以指导学习。在两个KB-VQA基准测试——百科全书VQA和InfoSeek上的实验表明,Wiki-R1取得了新的最先进成果,将百科全书VQA的准确率从35.5%提升至37.1%,InfoSeek的准确率从40.1%提升至44.1%。项目页面可在https://artanic30.github.io/project_pages/WikiR1/访问。