Reasoning over Video: Evaluating How MLLMs Extract, Integrate, and Reconstruct Spatiotemporal Evidence<br>视频推理评估：探究多模态大语言模型如何提取、整合与重构时空证据<br>[摘要](abstracts/2603.13091.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着对具身智能体兴趣的增长，时空视频理解的需求日益凸显，然而现有基准主要侧重于提取式推理，即答案可直接从时空事件中显式获取。目前尚不清楚多模态大语言模型是否能执行抽象式时空推理，这需要整合时间维度的观察、融合分散的线索，并推断隐含的空间与上下文结构。为填补这一空白，我们通过引入一个结构化评估分类法，系统性地针对抽象式时空推理的核心维度进行形式化定义，并构建了一个可控的、场景驱动的合成第一人称视角视频数据集，专门用于评估抽象式时空推理能力，涵盖物体、房间和楼层平面图等多个场景层级。基于此框架，我们提出了VAEX-BENCH基准，包含五项抽象推理任务及其对应的提取式任务版本。通过大量实验，我们比较了先进多模态大语言模型在提取式与抽象式设置下的表现，揭示了它们在抽象任务上的局限性，并对潜在瓶颈进行了细粒度分析。该数据集即将公开发布。

← Back