TransVLM: A Vision-Language Framework and Benchmark for Detecting Any Shot Transitions<br>TransVLM:用于检测任意镜头转换的视觉-语言框架与基准<br>[摘要](abstracts/2604.27975.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

传统镜头边界检测(SBD)通过将任务定义在孤立的切分点上,本质上难以处理复杂的镜头转换,常常导致视频镜头损坏。我们通过将镜头转换检测(STD)任务形式化来应对这一根本性局限。STD不再搜索模糊的切分点,而是明确检测转换的连续时间片段。为解决该问题,我们提出了TransVLM,一个面向STD的视觉-语言模型(VLM)框架。与主要依赖空间语义且难以捕捉细粒度镜头间动态的常规VLM不同,我们的方法在输入阶段显式注入光流作为关键运动先验。通过一种简单而有效的特征融合策略,TransVLM直接处理拼接后的颜色与运动表征,显著增强其时序感知能力,且不会对语言骨干网络带来任何额外的视觉令牌开销。为克服公开数据中严重的类别不平衡问题,我们设计了一个可扩展的数据引擎,用于合成多样化的转换视频以进行鲁棒训练,同时构建了STD的综合性基准。大量实验表明,TransVLM取得了优越的整体性能,超越了传统启发式方法、专用时空网络以及顶级VLM。本工作已部署至生产环境。更多相关研究请访问HeyGen Research(https://www.heygen.com/research)与HeyGen Avatar-V(https://www.heygen.com/research/avatar-v-model)。项目页面:https://chence17.github.io/TransVLM/

← Back