Training-Free Semantic Multi-Object Tracking with Vision-Language Models<br>无需训练的语义多目标跟踪：基于视觉-语言模型的方法<br>[摘要](abstracts/2604.14074.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

语义多目标跟踪（SMOT）通过视频摘要、实例级描述和交互标签等语义输出扩展了多目标跟踪，旨在从轨迹转向对动态场景的人类可理解描述。现有的SMOT系统采用端到端训练，其进展依赖于昂贵的监督数据，限制了快速适应新基础模型和新交互的能力。我们提出了TF-SMOT，一种无需训练的SMOT流程，它整合了预训练的检测、基于掩码的跟踪和视频-语言生成组件。TF-SMOT结合D-FINE和可提示的SAM2分割跟踪器以生成时间一致的轨迹片段，利用轮廓定位与InternVideo2.5生成视频摘要和实例描述，并通过基于词义的语义检索与LLM消歧，将提取的交互谓词对齐到BenSMOT WordNet同义词集。在BenSMOT数据集上，TF-SMOT在SMOT设置下实现了最先进的跟踪性能，并在摘要和描述质量上优于先前方法。然而，在细粒度且长尾的WordNet标签空间下，严格的精确匹配评估使交互识别仍具挑战性；我们的分析和消融实验表明，语义重叠和标签粒度显著影响测量性能。

← Back