Veo-Act: How Far Can Frontier Video Models Advance Generalizable Robot Manipulation?<br>Veo-Act：前沿视频模型能在多大程度上推动通用机器人操作？<br>[摘要](abstracts/2604.04502.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视频生成模型发展迅速，已开始展现出对物理动态的深刻理解。本文探讨了如Veo-3这样的先进视频生成模型能在多大程度上支持通用机器人操作。我们首先研究了一种零样本方法，其中Veo-3根据当前机器人观测预测未来图像序列，而逆动力学模型IDM则恢复相应的机器人动作。IDM仅通过随机游戏数据进行训练，无需人类监督或专家演示。核心直觉在于，如果视频模型能在图像空间中生成物理上合理的未来运动，IDM就能将这些视觉轨迹转化为可执行的机器人动作。我们在仿真和现实世界中，使用高自由度灵巧手评估了这种“Veo-3+IDM”方法。研究发现，得益于前沿视频模型的强大泛化能力，Veo-3+IDM能够持续生成大致正确的任务级轨迹。然而，其底层控制精度仍不足以可靠地完成大多数任务。基于这一观察，我们开发了一个分层框架——Veo-Act，该框架使用Veo-3作为高层运动规划器，并采用视觉语言动作策略作为底层执行器，从而显著提升了当前最先进的视觉语言动作策略的指令跟随性能。总体而言，我们的结果表明，随着视频生成模型的不断进步，视频模型有望成为通用机器人学习中的宝贵组成部分。

← Back