FRAPPE: Infusing World Modeling into Generalist Policies via Multiple Future Representation Alignment<br>FRAPPE：通过多未来表示对齐将世界建模融入通用策略<br>[摘要](abstracts/2602.17259.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

使视觉语言动作（VLA）模型能够预测环境动态（即世界建模）已被视为提升机器人推理与泛化能力的关键。然而，现有方法面临两大问题：1. 训练目标迫使模型过度关注像素级重建，限制了语义学习与泛化能力；2. 推理时依赖预测的未来观测常导致误差累积。为应对这些挑战，我们提出了并行渐进扩展的未来表示对齐方法（FRAPPE）。该方法采用两阶段微调策略：在中期训练阶段，模型学习预测未来观测的潜在表示；在后训练阶段，我们并行扩展计算负载，并同时与多个不同的视觉基础模型进行表示对齐。通过显著提升微调效率并减少对动作标注数据的依赖，FRAPPE为增强通用机器人策略的世界感知能力提供了一条可扩展且数据高效的路径。在RoboTwin基准测试和真实世界任务上的实验表明，FRAPPE优于现有先进方法，并在长时程和未见场景中展现出强大的泛化能力。

← Back