FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation<br>FD-VLA:用于接触丰富操作的力蒸馏视觉-语言-动作模型<br>[摘要](abstracts/2602.02142.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

力感知是视觉-语言-动作(VLA)框架中的关键模态,因为它能够在接触丰富的任务中实现细粒度感知和灵巧操作。我们提出了力蒸馏VLA(FD-VLA),这是一种新颖的框架,可在不依赖物理力传感器的情况下,将力感知集成到接触丰富的操作中。我们方法的核心是力蒸馏模块(FDM),它通过将可学习的查询令牌(以视觉观察和机器人状态为条件)映射到与真实力信号潜在表示对齐的预测力令牌中,从而蒸馏出力信息。在推理过程中,这个蒸馏出的力令牌被注入到预训练的VLM中,使其能够进行力感知推理,同时保持其视觉-语言语义的完整性。这种设计带来两个关键优势:首先,它允许在缺乏昂贵或易受力-扭矩传感器的广泛机器人上进行实际部署,从而降低硬件成本和复杂性;其次,FDM在VLM之前引入了额外的力-视觉-状态融合先验,这改善了跨模态对齐,并增强了接触丰富场景下的感知-动作鲁棒性。令人惊讶的是,我们的物理实验表明,蒸馏出的力令牌优于直接传感器力测量以及其他基线方法,这突显了这种力蒸馏VLA方法的有效性。

← Back