OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation<br>OmniVTA：面向接触密集型机器人操作的视觉-触觉世界建模<br>[摘要](abstracts/2603.19201.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

接触密集型操作任务，如擦拭和装配，需要准确感知接触力、摩擦力变化和状态转换，这些信息仅靠视觉无法可靠推断。尽管视觉-触觉操作日益受到关注，但进展仍受限于两个长期存在的制约因素：现有数据集规模小、任务覆盖范围窄，且现有方法将触觉信号视为被动观测，而非用于显式建模接触动力学或实现闭环控制。本文提出\textbf{OmniViTac}，一个大规模的视觉-触觉-动作数据集，包含超过21,000条轨迹，涵盖86个任务和100多个物体，并按六种基于物理的交互模式组织。基于此数据集，我们提出\textbf{OmniVTA}，一种基于世界模型的视觉-触觉操作框架，集成了四个紧密耦合的模块：自监督触觉编码器、用于预测短期接触演化的双流视觉-触觉世界模型、用于动作生成的接触感知融合策略，以及一个60Hz的反射式控制器，可在闭环中校正预测与观测触觉信号间的偏差。在所有六类交互任务上的真实机器人实验表明，OmniVTA优于现有方法，并能良好泛化到未见过的物体和几何配置，证实了将预测性接触建模与高频触觉反馈相结合对于接触密集型操作的价值。所有数据、模型和代码将在项目网站https://mrsecant.github.io/OmniVTA上公开。

← Back