FD-VLA: Force-Distilled Vision-Language-Action Model for Contact-Rich Manipulation<br>FD-VLA：用于接触丰富操作的力蒸馏视觉-语言-动作模型<br>[摘要](abstracts/2602.02142.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

力感知是视觉-语言-动作（VLA）框架中的关键模态，因为它能够在接触丰富的任务中实现细粒度感知和灵巧操作。我们提出了力蒸馏VLA（FD-VLA），这是一种新颖的框架，可在不依赖物理力传感器的情况下，将力感知集成到接触丰富的操作中。我们方法的核心是力蒸馏模块（FDM），它通过将可学习的查询令牌（以视觉观察和机器人状态为条件）映射到与真实力信号潜在表示对齐的预测力令牌中，从而蒸馏出力信息。在推理过程中，这个蒸馏出的力令牌被注入到预训练的VLM中，使其能够进行力感知推理，同时保持其视觉-语言语义的完整性。这种设计带来两个关键优势：首先，它允许在缺乏昂贵或易受力-扭矩传感器的广泛机器人上进行实际部署，从而降低硬件成本和复杂性；其次，FDM在VLM之前引入了额外的力-视觉-状态融合先验，这改善了跨模态对齐，并增强了接触丰富场景下的感知-动作鲁棒性。令人惊讶的是，我们的物理实验表明，蒸馏出的力令牌优于直接传感器力测量以及其他基线方法，这突显了这种力蒸馏VLA方法的有效性。

← Back