AT-VLA: Adaptive Tactile Injection for Enhanced Feedback Reaction in Vision-Language-Action Models<br>AT-VLA：面向视觉-语言-动作模型增强反馈反应的适应性触觉注入机制<br>[摘要](abstracts/2605.07308.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言-动作（VLA）模型显著提升了机器人代理执行多样化任务的能力，但在需要精确物理交互的密集接触操作场景中仍面临挑战。为克服这一局限，近期研究尝试在下游任务中引入触觉信号，使预训练的VLA模型能够解读触觉反馈。然而，在微调阶段引入预训练阶段极少出现的新模态，可能破坏VLA模型的预训练能力。此外，VLA模型本身推理速度较慢，阻碍了实时响应能力，并限制了触觉反馈在动作调整中的有效利用。针对这些问题，我们提出适应性触觉视觉-语言-动作（AT-VLA）模型，其核心创新为一种新型适应性触觉注入机制。该机制能够动态判断注入触觉信号的适当时机与位置，仅在触觉信息对动作生成具有显著贡献时进行注入，从而最大限度减少对预训练表征的干扰。同时，为实现快速精准的触觉响应，我们提出触觉反应双流机制，将感知处理解耦为用于低频感知推理的慢速视觉-语言流，以及用于高频物理交互理解的快速触觉控制流，在0.04秒内实现实时闭环响应。真实环境实验充分验证了AT-VLA在密集接触操作任务中的有效性。项目页面详见：https://sites.google.com/view/at-vla。

← Back