Abstract not available.
视频生成模型发展迅速,已开始展现出对物理动态的深刻理解。本文探讨了如Veo-3这样的先进视频生成模型能在多大程度上支持通用机器人操作。我们首先研究了一种零样本方法,其中Veo-3根据当前机器人观测预测未来图像序列,而逆动力学模型IDM则恢复相应的机器人动作。IDM仅通过随机游戏数据进行训练,无需人类监督或专家演示。核心直觉在于,如果视频模型能在图像空间中生成物理上合理的未来运动,IDM就能将这些视觉轨迹转化为可执行的机器人动作。我们在仿真和现实世界中,使用高自由度灵巧手评估了这种“Veo-3+IDM”方法。研究发现,得益于前沿视频模型的强大泛化能力,Veo-3+IDM能够持续生成大致正确的任务级轨迹。然而,其底层控制精度仍不足以可靠地完成大多数任务。基于这一观察,我们开发了一个分层框架——Veo-Act,该框架使用Veo-3作为高层运动规划器,并采用视觉语言动作策略作为底层执行器,从而显著提升了当前最先进的视觉语言动作策略的指令跟随性能。总体而言,我们的结果表明,随着视频生成模型的不断进步,视频模型有望成为通用机器人学习中的宝贵组成部分。