SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation<br>SeedPolicy:通过自演化扩散策略实现机器人操作的水平扩展<br>[摘要](abstracts/2603.05117.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

模仿学习(IL)使机器人能够从专家演示中学习操作技能。扩散策略(DP)能够建模多模态专家行为,但随着观察水平增加,其性能会下降,限制了长水平操作。我们提出了自演化门控注意力(SEGA),这是一种通过门控注意力维持时间演化潜在状态的时序模块,能够实现高效的循环更新,将长水平观察压缩为固定大小的表示,同时过滤无关的时序信息。将SEGA集成到DP中,形成了自演化扩散策略(SeedPolicy),它解决了时序建模瓶颈,并以适度的开销实现了可扩展的水平延伸。在包含50个操作任务的RoboTwin 2.0基准测试中,SeedPolicy优于DP和其他IL基线。在CNN和Transformer骨干网络的平均表现上,SeedPolicy在干净设置中实现了36.8%的相对改进,在随机化挑战设置中实现了169%的相对改进。与拥有12亿参数的视觉-语言-动作模型(如RDT)相比,SeedPolicy以少一到两个数量级的参数实现了竞争性性能,展示了强大的效率和可扩展性。这些结果确立了SeedPolicy作为长水平机器人操作的最先进模仿学习方法。代码可在以下网址获取:https://github.com/Youqiang-Gui/SeedPolicy。

← Back