Abstract not available.
触觉信息在人类操作任务中起着至关重要的作用,近年来在机器人操作领域也日益受到关注。然而,现有方法大多侧重于视觉与触觉特征的对齐,且融合机制往往采用直接拼接的方式。因此,由于忽视了两种模态固有的互补性,这些方法难以有效应对遮挡场景,且对齐效果可能未被充分利用,限制了其在现实世界部署的潜力。本文提出ViTaS,一个简单而有效的框架,整合视觉与触觉信息以指导智能体行为。我们引入了软融合对比学习——一种传统对比学习方法的进阶版本,并结合CVAE模块,以充分利用视觉触觉表征间的对齐性与互补性。我们在12个模拟环境和3个真实世界环境中验证了方法的有效性,实验表明ViTaS显著优于现有基线。项目页面:https://skyrainwind.github.io/ViTaS/index.html。