LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization<br>LongVPO：从锚定线索到自我推理的长视频偏好优化<br>[摘要](abstracts/2602.02341.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们提出了LongVPO，一种新颖的两阶段直接偏好优化框架，使短上下文视觉语言模型能够稳健地理解超长视频，无需任何长视频标注。在第一阶段，我们通过将问题锚定到单个短视频片段、与干扰项交错排列，并应用视觉相似性和问题特异性过滤来合成偏好三元组，以减轻位置偏差并确保明确的监督。我们还通过仅评估锚定片段来近似参考模型在长上下文中的评分，从而降低计算开销。在第二阶段，我们在长视频上采用递归字幕生成流程来生成场景级元数据，然后使用大型语言模型构建多片段推理查询和不受偏好的响应，通过多片段推理任务来对齐模型的偏好。仅使用16K个合成示例且无需昂贵的人工标注，LongVPO在多个长视频基准测试中超越了最先进的开源模型，同时保持了强大的短视频性能（例如在MVBench上），为高效的长视频理解提供了一个可扩展的范式。

← Back