Abstract not available.
多目标跟踪是计算机视觉中的一项基础任务,旨在跨视频帧追踪目标。现有的多目标跟踪方法在一般视觉场景中表现良好,但在扩展到视觉-语言设置时面临显著挑战与局限。为弥合这一差距,指涉多目标跟踪任务近期被提出,其目标是根据语言描述追踪对应物体。然而,当前的指涉多目标跟踪方法主要基于传统相机采集的数据集开发,这些数据集受限于狭窄的视场角,常导致目标移出画面,引发跟踪中断和上下文信息丢失。本研究提出一项新颖任务——全向指涉多目标跟踪,将指涉多目标跟踪扩展至全向图像领域,旨在克服传统数据集的视场角限制,并提升模型对长时序语言描述的理解能力。为推进该任务,我们构建了ORSet全向指涉多目标跟踪数据集,涵盖27个多样化全向场景、848条语言描述及3401个标注物体,提供了丰富的视觉、时序与语言信息。此外,我们提出了ORTrack框架,这是一个专为全向指涉多目标跟踪设计的大型视觉-语言模型驱动方案。在ORSet数据集上的大量实验验证了ORTrack框架的有效性。数据集与代码将在https://github.com/chen-si-jia/ORMOT开源。