DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation<br>DexHiL：一种用于灵巧操作中视觉-语言-动作模型后训练的人机协同框架<br>[摘要](abstracts/2603.09121.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作（VLA）模型在机器人操作中展现出良好的泛化能力，但在特定且复杂的下游任务中部署这些模型仍需有效的后训练。与此同时，人机协同（HiL）学习已被证明是优化机器人策略的强大机制。然而，将这一范式扩展至灵巧操作仍面临挑战：多指控制具有高维度、密集接触的特点，且其执行分布与标准手臂运动存在显著差异，导致现有灵巧VLA系统在可靠性和适应性方面受限。本文提出DexHiL，这是首个面向灵巧VLA模型的集成化手臂-手部人机协同框架，能够在单一系统中实现对手臂和灵巧手的协调干预。DexHiL引入了一种干预感知的数据采样策略，优先选择校正片段进行后训练，并配备轻量级遥操作接口，支持执行过程中即时的人工校正。真实机器人实验表明，DexHiL作为一种有效的后训练框架，实现了性能的显著跃升，在不同任务中的平均成功率比标准纯离线微调基线高出25%。项目页面：https://chenzhongxi-sjtu.github.io/dexhil/

← Back