RealWonder: Real-Time Physical Action-Conditioned Video Generation<br>RealWonder:实时物理动作条件视频生成系统<br>[摘要](abstracts/2603.05449.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

当前视频生成模型由于缺乏对动作如何影响三维场景的结构性理解,无法模拟三维动作(如力与机器人操作)的物理后果。我们提出了RealWonder,这是首个基于单张图像实现实时动作条件视频生成的系统。我们的核心洞见在于利用物理模拟作为中间桥梁:不直接编码连续动作,而是通过物理模拟将其转化为视频模型可处理的视觉表示(光流与RGB)。RealWonder整合了三个组件:单图像三维重建、物理模拟,以及仅需4步扩散过程的蒸馏视频生成器。该系统在480x832分辨率下达到13.2 FPS,支持对刚性物体、可变形体、流体和颗粒材料进行力、机器人动作及相机控制的交互式探索。我们预见RealWonder将为视频模型在沉浸式体验、增强/虚拟现实及机器人学习中的应用开辟新机遇。代码与模型权重已在项目网站公开:https://liuwei283.github.io/RealWonder/

← Back