GraphThinker: Reinforcing Video Reasoning with Event Graph Thinking<br>GraphThinker：通过事件图思维强化视频推理<br>[摘要](abstracts/2602.17555.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频推理需要理解视频中事件之间的因果关系，然而这些关系通常是隐含的，且人工标注成本高昂。现有的多模态大语言模型（MLLMs）通常通过密集描述或视频摘要来推断事件关系以进行视频推理，但这种建模仍缺乏因果理解。由于缺乏对视频事件内部及跨事件因果结构的显式建模，这些模型在视频推理过程中容易出现幻觉。本文提出GraphThinker，一种基于强化微调的方法，通过构建结构化的事件级场景图并增强视觉基础，共同减少视频推理中的幻觉。具体而言，我们首先利用MLLM构建基于事件的视频场景图（EVSG），显式建模事件内部及事件间的关系，并将这些形成的场景图作为中间思维过程融入MLLM中。在强化微调过程中，我们还引入了视觉注意力奖励机制，以加强视频基础并进一步缓解幻觉。我们在RexTime和VidHalluc两个数据集上评估GraphThinker，结果显示相较于现有方法，它能够更准确地捕捉对象和事件关系，实现更精确的事件定位，从而有效减少视频推理中的幻觉。

← Back