Abstract not available.
近年来,端到端机器人操作模型因其泛化性和可扩展性而备受关注。然而,使用固定相机进行训练时,这些模型往往对相机视角变化的鲁棒性有限。本文提出VistaBot,一种新颖的框架,将前馈几何模型与视频扩散模型相结合,在不需测试时相机标定的情况下实现视角鲁棒的闭环操作。我们的方法包含三个关键组件:4D几何估计、视图合成潜在提取和潜在动作学习。VistaBot被集成到动作分块策略(ACT)和基于扩散的策略(π₀)中,并在仿真和真实世界任务中进行了评估。我们进一步引入了视图泛化得分(VGS)作为跨视角泛化综合评估的新指标。结果表明,VistaBot在ACT和π₀基础上分别将VGS提升了2.79倍和2.63倍,同时实现了高质量的新视角合成。我们的贡献包括几何感知合成模型、潜在动作规划器、新的基准指标以及跨多样环境的广泛验证。代码和模型将公开提供。