VistaBot: View-Robust Robot Manipulation via Spatiotemporal-Aware View Synthesis<br>VistaBot：基于时空感知视图合成的鲁棒机器人操作<br>[摘要](abstracts/2604.21914.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

近年来，端到端机器人操作模型因其泛化性和可扩展性而备受关注。然而，使用固定相机进行训练时，这些模型往往对相机视角变化的鲁棒性有限。本文提出VistaBot，一种新颖的框架，将前馈几何模型与视频扩散模型相结合，在不需测试时相机标定的情况下实现视角鲁棒的闭环操作。我们的方法包含三个关键组件：4D几何估计、视图合成潜在提取和潜在动作学习。VistaBot被集成到动作分块策略（ACT）和基于扩散的策略（π₀）中，并在仿真和真实世界任务中进行了评估。我们进一步引入了视图泛化得分（VGS）作为跨视角泛化综合评估的新指标。结果表明，VistaBot在ACT和π₀基础上分别将VGS提升了2.79倍和2.63倍，同时实现了高质量的新视角合成。我们的贡献包括几何感知合成模型、潜在动作规划器、新的基准指标以及跨多样环境的广泛验证。代码和模型将公开提供。

← Back