Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos<br>面向单目视频的时空世界场景图生成<br>[摘要](abstracts/2603.13185.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

时空场景图为建模动态物体交互提供了结构化表示，但现有方法仍局限于帧中心范式：仅推理当前可见物体，丢弃被遮挡实体，并基于二维空间操作。为应对此问题，我们首先引入ActionGenome4D数据集，该数据集通过前馈式三维重建将Action Genome视频升级为四维场景，为动作涉及的每个物体提供世界坐标系下的定向边界框，并包含密集关系标注（涵盖因遮挡或相机运动暂时不可见的物体）。基于此数据，我们形式化定义了世界场景图生成任务，即在每个时间戳构建涵盖场景中所有交互物体（包括可见与不可见）的世界场景图。随后提出三种互补方法，分别探索不同归纳偏置以推理不可见物体：PWG（持久世界图）通过零阶特征缓冲区实现物体恒存性；MWAE（掩码世界自编码器）将不可见物体推理重构为基于跨视图关联检索的掩码补全任务；4DST（四维场景变换器）则用可微分逐物体时序注意力替代静态缓冲区，并融入三维运动与相机位姿特征。我们进一步通过一套基于图检索增强生成的方法，设计并评估了开源视觉语言模型在WSGG任务上的性能，为无定位关系预测建立基线。WSGG由此推动视频场景理解向世界中心化、时序持久化与可解释的场景推理迈进。

← Back