Abstract not available.
我们提出了LongVPO,一种新颖的两阶段直接偏好优化框架,使短上下文视觉语言模型能够稳健地理解超长视频,无需任何长视频标注。在第一阶段,我们通过将问题锚定到单个短视频片段、与干扰项交错排列,并应用视觉相似性和问题特异性过滤来合成偏好三元组,以减轻位置偏差并确保明确的监督。我们还通过仅评估锚定片段来近似参考模型在长上下文中的评分,从而降低计算开销。在第二阶段,我们在长视频上采用递归字幕生成流程来生成场景级元数据,然后使用大型语言模型构建多片段推理查询和不受偏好的响应,通过多片段推理任务来对齐模型的偏好。仅使用16K个合成示例且无需昂贵的人工标注,LongVPO在多个长视频基准测试中超越了最先进的开源模型,同时保持了强大的短视频性能(例如在MVBench上),为高效的长视频理解提供了一个可扩展的范式。