ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking<br>ORMOT：面向全向指涉多目标跟踪的数据集与框架<br>[摘要](abstracts/2603.05384.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多目标跟踪是计算机视觉中的一项基础任务，旨在跨视频帧追踪目标。现有的多目标跟踪方法在一般视觉场景中表现良好，但在扩展到视觉-语言设置时面临显著挑战与局限。为弥合这一差距，指涉多目标跟踪任务近期被提出，其目标是根据语言描述追踪对应物体。然而，当前的指涉多目标跟踪方法主要基于传统相机采集的数据集开发，这些数据集受限于狭窄的视场角，常导致目标移出画面，引发跟踪中断和上下文信息丢失。本研究提出一项新颖任务——全向指涉多目标跟踪，将指涉多目标跟踪扩展至全向图像领域，旨在克服传统数据集的视场角限制，并提升模型对长时序语言描述的理解能力。为推进该任务，我们构建了ORSet全向指涉多目标跟踪数据集，涵盖27个多样化全向场景、848条语言描述及3401个标注物体，提供了丰富的视觉、时序与语言信息。此外，我们提出了ORTrack框架，这是一个专为全向指涉多目标跟踪设计的大型视觉-语言模型驱动方案。在ORSet数据集上的大量实验验证了ORTrack框架的有效性。数据集与代码将在https://github.com/chen-si-jia/ORMOT开源。

← Back