Abstract not available.
随着数字娱乐的爆炸式增长,自动化视频摘要技术对于内容索引、个性化推荐和高效媒体归档等应用变得不可或缺。针对电影和电视剧等长视频的自动剧情摘要生成,对现有视觉语言模型(VLMs)构成了重大挑战。尽管这些通用模型擅长单图像描述,但在长时上下文环境中常表现出关键缺陷,主要是缺乏ID一致的角色识别和叙事连贯性断裂。为克服这些限制,我们提出了MovieTeller,一种通过工具增强渐进式抽象生成电影摘要的新框架。我们的核心贡献是一个无需训练、工具增强且基于事实的生成流程。该框架无需昂贵的模型微调,而是以即插即用的方式直接利用现成模型。我们首先调用专用人脸识别模型作为外部“工具”建立事实基础——精确的角色身份及其对应边界框。这些基础信息随后被注入提示词中以引导VLM的推理,确保生成的场景描述锚定于可验证的事实。此外,我们的渐进式抽象流程将全长电影的摘要分解为多阶段处理,有效缓解了当前VLMs的上下文长度限制。实验表明,与端到端基线方法相比,我们的方法在事实准确性、角色一致性和整体叙事连贯性方面均取得显著提升。