Reasoning over Video: Evaluating How MLLMs Extract, Integrate, and Reconstruct Spatiotemporal Evidence<br>视频推理评估:探究多模态大语言模型如何提取、整合与重构时空证据<br>[摘要](abstracts/2603.13091.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着对具身智能体兴趣的增长,时空视频理解的需求日益凸显,然而现有基准主要侧重于提取式推理,即答案可直接从时空事件中显式获取。目前尚不清楚多模态大语言模型是否能执行抽象式时空推理,这需要整合时间维度的观察、融合分散的线索,并推断隐含的空间与上下文结构。为填补这一空白,我们通过引入一个结构化评估分类法,系统性地针对抽象式时空推理的核心维度进行形式化定义,并构建了一个可控的、场景驱动的合成第一人称视角视频数据集,专门用于评估抽象式时空推理能力,涵盖物体、房间和楼层平面图等多个场景层级。基于此框架,我们提出了VAEX-BENCH基准,包含五项抽象推理任务及其对应的提取式任务版本。通过大量实验,我们比较了先进多模态大语言模型在提取式与抽象式设置下的表现,揭示了它们在抽象任务上的局限性,并对潜在瓶颈进行了细粒度分析。该数据集即将公开发布。

← Back