Abstract not available.
视频推理需要理解视频中事件之间的因果关系,然而这些关系通常是隐含的,且人工标注成本高昂。现有的多模态大语言模型(MLLMs)通常通过密集描述或视频摘要来推断事件关系以进行视频推理,但这种建模仍缺乏因果理解。由于缺乏对视频事件内部及跨事件因果结构的显式建模,这些模型在视频推理过程中容易出现幻觉。本文提出GraphThinker,一种基于强化微调的方法,通过构建结构化的事件级场景图并增强视觉基础,共同减少视频推理中的幻觉。具体而言,我们首先利用MLLM构建基于事件的视频场景图(EVSG),显式建模事件内部及事件间的关系,并将这些形成的场景图作为中间思维过程融入MLLM中。在强化微调过程中,我们还引入了视觉注意力奖励机制,以加强视频基础并进一步缓解幻觉。我们在RexTime和VidHalluc两个数据集上评估GraphThinker,结果显示相较于现有方法,它能够更准确地捕捉对象和事件关系,实现更精确的事件定位,从而有效减少视频推理中的幻觉。