SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation<br>SeedPolicy：通过自演化扩散策略实现机器人操作的水平扩展<br>[摘要](abstracts/2603.05117.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

模仿学习（IL）使机器人能够从专家演示中学习操作技能。扩散策略（DP）能够建模多模态专家行为，但随着观察水平增加，其性能会下降，限制了长水平操作。我们提出了自演化门控注意力（SEGA），这是一种通过门控注意力维持时间演化潜在状态的时序模块，能够实现高效的循环更新，将长水平观察压缩为固定大小的表示，同时过滤无关的时序信息。将SEGA集成到DP中，形成了自演化扩散策略（SeedPolicy），它解决了时序建模瓶颈，并以适度的开销实现了可扩展的水平延伸。在包含50个操作任务的RoboTwin 2.0基准测试中，SeedPolicy优于DP和其他IL基线。在CNN和Transformer骨干网络的平均表现上，SeedPolicy在干净设置中实现了36.8%的相对改进，在随机化挑战设置中实现了169%的相对改进。与拥有12亿参数的视觉-语言-动作模型（如RDT）相比，SeedPolicy以少一到两个数量级的参数实现了竞争性性能，展示了强大的效率和可扩展性。这些结果确立了SeedPolicy作为长水平机器人操作的最先进模仿学习方法。代码可在以下网址获取：https://github.com/Youqiang-Gui/SeedPolicy。

← Back