Abstract not available.
语义多目标跟踪(SMOT)通过视频摘要、实例级描述和交互标签等语义输出扩展了多目标跟踪,旨在从轨迹转向对动态场景的人类可理解描述。现有的SMOT系统采用端到端训练,其进展依赖于昂贵的监督数据,限制了快速适应新基础模型和新交互的能力。我们提出了TF-SMOT,一种无需训练的SMOT流程,它整合了预训练的检测、基于掩码的跟踪和视频-语言生成组件。TF-SMOT结合D-FINE和可提示的SAM2分割跟踪器以生成时间一致的轨迹片段,利用轮廓定位与InternVideo2.5生成视频摘要和实例描述,并通过基于词义的语义检索与LLM消歧,将提取的交互谓词对齐到BenSMOT WordNet同义词集。在BenSMOT数据集上,TF-SMOT在SMOT设置下实现了最先进的跟踪性能,并在摘要和描述质量上优于先前方法。然而,在细粒度且长尾的WordNet标签空间下,严格的精确匹配评估使交互识别仍具挑战性;我们的分析和消融实验表明,语义重叠和标签粒度显著影响测量性能。