Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control<br>Robot-DIFT：提取扩散特征以实现几何一致的视觉运动控制<br>[摘要](abstracts/2602.11934.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们假设，通用机器人操作的关键瓶颈不仅在于数据规模或策略容量，更在于当前视觉主干网络与闭环控制的物理需求之间的结构不匹配。虽然最先进的视觉编码器（包括用于视觉语言模型中的编码器）通过语义不变性优化以稳定分类，但操作通常需要几何敏感性——即能够将毫米级的姿态变化映射为可预测的特征变化。其判别性目标为细粒度控制创造了“盲点”，而生成式扩散模型则在其潜在流形中固有地编码了几何依赖性，促进了密集多尺度空间结构的保留。然而，直接将随机扩散特征用于控制受到随机不稳定性、推理延迟和微调期间表示漂移的阻碍。为弥合这一差距，我们提出了Robot-DIFT框架，该框架通过流形蒸馏将几何信息的来源与推理过程解耦。通过将冻结的扩散教师模型蒸馏为确定性的空间语义特征金字塔网络（S2-FPN），我们保留了生成模型的丰富几何先验，同时确保了时间稳定性、实时执行能力和对漂移的鲁棒性。在大规模DROID数据集上进行预训练后，Robot-DIFT相比领先的判别性基线展现出更优的几何一致性和控制性能，支持了“模型如何学习观察决定了其如何学习行动”的观点。

← Back