Sword: Style-Robust World Models as Simulators via Dynamic Latent Bootstrapping for VLA Policy Post-Training<br>Sword: 通过动态潜在引导实现风格鲁棒的世界模型,用于VLA策略后训练的模拟器<br>[摘要](abstracts/2605.07288.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作(VLA)模型与世界模型的结合日益受到关注。一种代表性方法将学习到的世界模型视为生成式模拟器,使得策略优化完全在“想象”中进行。然而,当作为特定环境(如LIBERO基准)的模拟器部署时,现有世界模型常面临泛化能力差和长期误差累积的问题。在闭环展开过程中,这些模型对初始状态扰动高度敏感;颜色、光照及其他视觉因素的微小变化可能引发级联幻觉,导致严重模糊或过度曝光。此外,长期误差累积进一步降低了预测未来状态的质量和保真度。这些问题限制了世界模型作为模拟器的可靠性。为缓解这些难题,我们提出了Sword,一个鲁棒的世界模型框架。我们的方法引入了结构引导的风格增强,以解耦交互环境的视觉纹理与任务相关动态,从而提升泛化能力。我们进一步提出动态潜在引导,在保持训练与推理一致性的同时,维持低内存消耗。在LIBERO基准上的大量实验表明,我们的方法在泛化性、生成质量、鲁棒性、保真度以及VLA模型强化学习后训练的成功率方面均显著优于基线方法WoVR。

← Back