Abstract not available.
时空场景图为建模动态物体交互提供了结构化表示,但现有方法仍局限于帧中心范式:仅推理当前可见物体,丢弃被遮挡实体,并基于二维空间操作。为应对此问题,我们首先引入ActionGenome4D数据集,该数据集通过前馈式三维重建将Action Genome视频升级为四维场景,为动作涉及的每个物体提供世界坐标系下的定向边界框,并包含密集关系标注(涵盖因遮挡或相机运动暂时不可见的物体)。基于此数据,我们形式化定义了世界场景图生成任务,即在每个时间戳构建涵盖场景中所有交互物体(包括可见与不可见)的世界场景图。随后提出三种互补方法,分别探索不同归纳偏置以推理不可见物体:PWG(持久世界图)通过零阶特征缓冲区实现物体恒存性;MWAE(掩码世界自编码器)将不可见物体推理重构为基于跨视图关联检索的掩码补全任务;4DST(四维场景变换器)则用可微分逐物体时序注意力替代静态缓冲区,并融入三维运动与相机位姿特征。我们进一步通过一套基于图检索增强生成的方法,设计并评估了开源视觉语言模型在WSGG任务上的性能,为无定位关系预测建立基线。WSGG由此推动视频场景理解向世界中心化、时序持久化与可解释的场景推理迈进。