MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction<br>MovieTeller：基于工具增强的电影剧情摘要与ID一致渐进式抽象<br>[摘要](abstracts/2602.23228.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着数字娱乐的爆炸式增长，自动化视频摘要技术对于内容索引、个性化推荐和高效媒体归档等应用变得不可或缺。针对电影和电视剧等长视频的自动剧情摘要生成，对现有视觉语言模型（VLMs）构成了重大挑战。尽管这些通用模型擅长单图像描述，但在长时上下文环境中常表现出关键缺陷，主要是缺乏ID一致的角色识别和叙事连贯性断裂。为克服这些限制，我们提出了MovieTeller，一种通过工具增强渐进式抽象生成电影摘要的新框架。我们的核心贡献是一个无需训练、工具增强且基于事实的生成流程。该框架无需昂贵的模型微调，而是以即插即用的方式直接利用现成模型。我们首先调用专用人脸识别模型作为外部“工具”建立事实基础——精确的角色身份及其对应边界框。这些基础信息随后被注入提示词中以引导VLM的推理，确保生成的场景描述锚定于可验证的事实。此外，我们的渐进式抽象流程将全长电影的摘要分解为多阶段处理，有效缓解了当前VLMs的上下文长度限制。实验表明，与端到端基线方法相比，我们的方法在事实准确性、角色一致性和整体叙事连贯性方面均取得显著提升。

← Back