Geometry-Guided Camera Motion Understanding in VideoLLMs<br>视频大语言模型中的几何引导相机运动理解<br>[摘要](abstracts/2603.13119.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

相机运动是塑造视觉感知与电影风格的基本几何信号,然而当前具备视频处理能力的视觉语言模型(VideoLLMs)很少显式地表示它,且常在细粒度运动基元上表现不佳。我们通过一个包含基准构建、诊断与注入的框架来填补这一空白。我们构建了CameraMotionDataset——一个具有显式相机控制的大规模合成数据集,将相机运动形式化为约束感知的多标签识别任务,并创建了一个视觉问答基准CameraMotionVQA。在多种现成的VideoLLMs中,我们观察到其在识别相机运动基元时存在显著错误。对Qwen2.5-VL视觉编码器的探测实验表明,相机运动线索的表示较弱,尤其是在更深的ViT模块中,这有助于解释观察到的失败模式。为了在不进行昂贵训练或微调的情况下弥合这一差距,我们提出了一种轻量级、模型无关的流程:从3D基础模型(3DFMs)中提取几何相机线索,使用时序分类器预测受约束的运动基元,并通过结构化提示将其注入下游VideoLLM的推理过程中。实验表明,该方法提升了运动识别能力,并生成了更具相机感知的模型响应,凸显了几何驱动的线索提取与结构化提示作为实现相机感知VideoLLM和视觉语言系统(VLA)的实用步骤。数据集与基准已公开于https://hf.co/datasets/fengyee/camera-motion-dataset-and-benchmark。

← Back