Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model<br>多视角视频扩散策略:一种三维时空感知的视频动作模型<br>[摘要](abstracts/2604.03181.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

机器人操作需要同时理解环境的三维空间结构及其时间演化,然而现有策略大多忽视其中一方面或两者。这些策略通常依赖二维视觉观测和基于静态图像-文本对预训练的骨干网络,导致数据需求高且对环境动态理解有限。为解决这一问题,我们提出了MV-VDP,一种多视角视频扩散策略,能够联合建模环境的三维时空状态。其核心思想是同时预测多视角热图视频和RGB视频,这实现了两个关键目标:1)将视频预训练的表示格式与动作微调对齐;2)不仅指定机器人应执行的动作,还预测环境如何响应这些动作而演化。大量实验表明,MV-VDP能够实现数据高效、鲁棒、可泛化且可解释的操作。仅需十条演示轨迹且无需额外预训练,MV-VDP即可成功执行复杂的真实世界任务,在一系列模型超参数下表现出强鲁棒性,泛化至分布外场景,并预测逼真的未来视频。在Meta-World和真实机器人平台上的实验证明,MV-VDP持续优于基于视频预测、三维建模及视觉-语言-动作的模型,为数据高效的多任务操作确立了新的技术标杆。

← Back