VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model<br>VLAW：视觉-语言-动作策略与世界模型的迭代协同改进<br>[摘要](abstracts/2602.12063.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本文的目标是通过迭代式在线交互提升视觉-语言-动作（VLA）模型的性能与可靠性。由于在现实世界中收集策略部署数据成本高昂，我们探究是否可利用学习型模拟器——特别是动作条件视频生成模型——来生成额外的部署数据。然而，现有世界模型缺乏策略改进所需的物理保真度：它们主要基于演示数据集训练，这些数据集缺乏对多种物理交互（尤其是失败案例）的覆盖，且难以准确建模接触密集型物体操作中微小但关键的物理细节。我们提出一种简单的迭代改进算法，利用真实世界部署数据提升世界模型的保真度，进而生成补充性合成数据以改进VLA模型。在真实机器人实验中，我们运用该方法提升了先进VLA模型在多个下游任务中的表现。相比基线策略，我们实现了39.2%的绝对成功率提升，其中通过生成合成部署数据训练带来11.6%的改进。演示视频可访问此匿名网站：https://sites.google.com/view/vla-w

← Back