Geometry-Guided Camera Motion Understanding in VideoLLMs<br>视频大语言模型中的几何引导相机运动理解<br>[摘要](abstracts/2603.13119.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

相机运动是塑造视觉感知与电影风格的基本几何信号，然而当前具备视频处理能力的视觉语言模型（VideoLLMs）很少显式地表示它，且常在细粒度运动基元上表现不佳。我们通过一个包含基准构建、诊断与注入的框架来填补这一空白。我们构建了CameraMotionDataset——一个具有显式相机控制的大规模合成数据集，将相机运动形式化为约束感知的多标签识别任务，并创建了一个视觉问答基准CameraMotionVQA。在多种现成的VideoLLMs中，我们观察到其在识别相机运动基元时存在显著错误。对Qwen2.5-VL视觉编码器的探测实验表明，相机运动线索的表示较弱，尤其是在更深的ViT模块中，这有助于解释观察到的失败模式。为了在不进行昂贵训练或微调的情况下弥合这一差距，我们提出了一种轻量级、模型无关的流程：从3D基础模型（3DFMs）中提取几何相机线索，使用时序分类器预测受约束的运动基元，并通过结构化提示将其注入下游VideoLLM的推理过程中。实验表明，该方法提升了运动识别能力，并生成了更具相机感知的模型响应，凸显了几何驱动的线索提取与结构化提示作为实现相机感知VideoLLM和视觉语言系统（VLA）的实用步骤。数据集与基准已公开于https://hf.co/datasets/fengyee/camera-motion-dataset-and-benchmark。

← Back