Abstract not available.
密集点跟踪是计算机视觉中的一个基础问题,其应用范围从视频分析到机器人操作。当前最先进的跟踪器通常依赖成本体积来跨帧匹配特征,但这种方法在空间分辨率上具有二次复杂度,限制了可扩展性和效率。本文提出了一种新颖的密集点跟踪器——CoWTracker,它摒弃了成本体积,转而采用变形方法。受光流领域最新进展的启发,我们的方法基于当前估计,通过将目标帧的特征变形到查询帧,迭代地优化跟踪估计。结合一个在所有轨迹上进行联合时空推理的Transformer架构,我们的设计无需计算特征相关性即可建立长距离对应关系。该模型结构简洁,在标准密集点跟踪基准测试(包括TAP-Vid-DAVIS、TAP-Vid-Kinetics和Robo-TAP)中达到了最先进的性能。值得注意的是,该模型在光流估计方面也表现出色,有时在Sintel、KITTI和Spring基准测试中甚至超越了专用方法。这些结果表明,基于变形的架构可以统一密集点跟踪和光流估计。