Bridging the Embodiment Gap: Disentangled Cross-Embodiment Video Editing<br>弥合具身鸿沟:解耦跨具身视频编辑<br>[摘要](abstracts/2605.03637.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

从人类视频中学习机器人操作是解决机器人领域数据瓶颈的一种有前景的方案,但人类与机器人之间的分布偏移仍是一个关键挑战。现有方法通常产生纠缠表示,其中任务相关信息与人类特定运动学耦合,限制了其适应性。我们提出了一种用于跨具身视频编辑的生成式框架,通过显式学习解耦的任务和具身表示来直接解决这一问题。我们的方法通过施加双重对比目标,将演示视频分解为两个正交的潜在空间:最小化空间之间的互信息以确保独立性,同时最大化空间内部的一致性以创建稳定的表示。我们采用参数高效适配器将这些潜在编码注入冻结的视频扩散模型,从而能够从单个人类演示合成连贯的机器人执行视频,而无需配对的跨具身数据。实验表明,我们的方法生成了时间一致且形态准确的机器人演示,为利用互联网规模的人类视频进行机器人学习提供了一种可扩展的解决方案。

← Back