Abstract not available.
视觉-语言-动作(VLA)模型显著提升了机器人代理执行多样化任务的能力,但在需要精确物理交互的密集接触操作场景中仍面临挑战。为克服这一局限,近期研究尝试在下游任务中引入触觉信号,使预训练的VLA模型能够解读触觉反馈。然而,在微调阶段引入预训练阶段极少出现的新模态,可能破坏VLA模型的预训练能力。此外,VLA模型本身推理速度较慢,阻碍了实时响应能力,并限制了触觉反馈在动作调整中的有效利用。针对这些问题,我们提出适应性触觉视觉-语言-动作(AT-VLA)模型,其核心创新为一种新型适应性触觉注入机制。该机制能够动态判断注入触觉信号的适当时机与位置,仅在触觉信息对动作生成具有显著贡献时进行注入,从而最大限度减少对预训练表征的干扰。同时,为实现快速精准的触觉响应,我们提出触觉反应双流机制,将感知处理解耦为用于低频感知推理的慢速视觉-语言流,以及用于高频物理交互理解的快速触觉控制流,在0.04秒内实现实时闭环响应。真实环境实验充分验证了AT-VLA在密集接触操作任务中的有效性。项目页面详见:https://sites.google.com/view/at-vla。