DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation<br>DexHiL:一种用于灵巧操作中视觉-语言-动作模型后训练的人机协同框架<br>[摘要](abstracts/2603.09121.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管视觉-语言-动作(VLA)模型在机器人操作中展现出良好的泛化能力,但在特定且复杂的下游任务中部署这些模型仍需有效的后训练。与此同时,人机协同(HiL)学习已被证明是优化机器人策略的强大机制。然而,将这一范式扩展至灵巧操作仍面临挑战:多指控制具有高维度、密集接触的特点,且其执行分布与标准手臂运动存在显著差异,导致现有灵巧VLA系统在可靠性和适应性方面受限。本文提出DexHiL,这是首个面向灵巧VLA模型的集成化手臂-手部人机协同框架,能够在单一系统中实现对手臂和灵巧手的协调干预。DexHiL引入了一种干预感知的数据采样策略,优先选择校正片段进行后训练,并配备轻量级遥操作接口,支持执行过程中即时的人工校正。真实机器人实验表明,DexHiL作为一种有效的后训练框架,实现了性能的显著跃升,在不同任务中的平均成功率比标准纯离线微调基线高出25%。项目页面:https://chenzhongxi-sjtu.github.io/dexhil/

← Back