TransVLM: A Vision-Language Framework and Benchmark for Detecting Any Shot Transitions<br>TransVLM：用于检测任意镜头转换的视觉-语言框架与基准<br>[摘要](abstracts/2604.27975.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

传统镜头边界检测（SBD）通过将任务定义在孤立的切分点上，本质上难以处理复杂的镜头转换，常常导致视频镜头损坏。我们通过将镜头转换检测（STD）任务形式化来应对这一根本性局限。STD不再搜索模糊的切分点，而是明确检测转换的连续时间片段。为解决该问题，我们提出了TransVLM，一个面向STD的视觉-语言模型（VLM）框架。与主要依赖空间语义且难以捕捉细粒度镜头间动态的常规VLM不同，我们的方法在输入阶段显式注入光流作为关键运动先验。通过一种简单而有效的特征融合策略，TransVLM直接处理拼接后的颜色与运动表征，显著增强其时序感知能力，且不会对语言骨干网络带来任何额外的视觉令牌开销。为克服公开数据中严重的类别不平衡问题，我们设计了一个可扩展的数据引擎，用于合成多样化的转换视频以进行鲁棒训练，同时构建了STD的综合性基准。大量实验表明，TransVLM取得了优越的整体性能，超越了传统启发式方法、专用时空网络以及顶级VLM。本工作已部署至生产环境。更多相关研究请访问HeyGen Research（https://www.heygen.com/research）与HeyGen Avatar-V（https://www.heygen.com/research/avatar-v-model）。项目页面：https://chence17.github.io/TransVLM/

← Back