Seeing Realism from Simulation: Efficient Video Transfer for Vision-Language-Action Data Augmentation<br>从仿真中看见真实:面向视觉-语言-动作数据增强的高效视频迁移方法<br>[摘要](abstracts/2605.02757.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型通常依赖大规模真实世界视频,而仿真数据尽管采集成本低且易于并行化,却存在显著的视觉域差异和环境多样性不足的问题,导致其在真实世界中的泛化能力薄弱。我们提出一种高效的视频增强框架,可将仿真VLA视频转化为逼真的训练视频,同时保留任务语义和动作轨迹。该流程通过视频语义分割和视频描述技术从仿真中提取结构化条件,重写描述以增加环境多样性,并利用条件视频迁移模型合成逼真视频。为使增强方法具备大规模实用性,我们引入了扩散特征复用机制——通过跨相邻时间步复用视频令牌来加速生成,以及核心集采样策略——在有限计算资源下识别紧凑且无冗余的子集用于增强。在Robotwin 2.0、LIBERO、LIBERO-Plus及真实机器人平台上的大量实验均表明该方法具有持续改进效果。例如,我们的方法使RDT-1B在Robotwin 2.0上提升8%,使$π_0$在更具挑战性的LIBERO-Plus基准上提升5.1%。代码已开源:https://github.com/nanfangxiansheng/Seeing-Realism-from-Simulation。

← Back