Sword: Style-Robust World Models as Simulators via Dynamic Latent Bootstrapping for VLA Policy Post-Training<br>Sword: 通过动态潜在引导实现风格鲁棒的世界模型，用于VLA策略后训练的模拟器<br>[摘要](abstracts/2605.07288.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型与世界模型的结合日益受到关注。一种代表性方法将学习到的世界模型视为生成式模拟器，使得策略优化完全在“想象”中进行。然而，当作为特定环境（如LIBERO基准）的模拟器部署时，现有世界模型常面临泛化能力差和长期误差累积的问题。在闭环展开过程中，这些模型对初始状态扰动高度敏感；颜色、光照及其他视觉因素的微小变化可能引发级联幻觉，导致严重模糊或过度曝光。此外，长期误差累积进一步降低了预测未来状态的质量和保真度。这些问题限制了世界模型作为模拟器的可靠性。为缓解这些难题，我们提出了Sword，一个鲁棒的世界模型框架。我们的方法引入了结构引导的风格增强，以解耦交互环境的视觉纹理与任务相关动态，从而提升泛化能力。我们进一步提出动态潜在引导，在保持训练与推理一致性的同时，维持低内存消耗。在LIBERO基准上的大量实验表明，我们的方法在泛化性、生成质量、鲁棒性、保真度以及VLA模型强化学习后训练的成功率方面均显著优于基线方法WoVR。

← Back