Multi-View Video Diffusion Policy: A 3D Spatio-Temporal-Aware Video Action Model<br>多视角视频扩散策略：一种三维时空感知的视频动作模型<br>[摘要](abstracts/2604.03181.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

机器人操作需要同时理解环境的三维空间结构及其时间演化，然而现有策略大多忽视其中一方面或两者。这些策略通常依赖二维视觉观测和基于静态图像-文本对预训练的骨干网络，导致数据需求高且对环境动态理解有限。为解决这一问题，我们提出了MV-VDP，一种多视角视频扩散策略，能够联合建模环境的三维时空状态。其核心思想是同时预测多视角热图视频和RGB视频，这实现了两个关键目标：1）将视频预训练的表示格式与动作微调对齐；2）不仅指定机器人应执行的动作，还预测环境如何响应这些动作而演化。大量实验表明，MV-VDP能够实现数据高效、鲁棒、可泛化且可解释的操作。仅需十条演示轨迹且无需额外预训练，MV-VDP即可成功执行复杂的真实世界任务，在一系列模型超参数下表现出强鲁棒性，泛化至分布外场景，并预测逼真的未来视频。在Meta-World和真实机器人平台上的实验证明，MV-VDP持续优于基于视频预测、三维建模及视觉-语言-动作的模型，为数据高效的多任务操作确立了新的技术标杆。

← Back