Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence<br>人类与视觉语言模型：叙事连贯性的统一度量<br>[摘要](abstracts/2603.25537.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

我们通过比较人类编写的叙事与视觉语言模型在视觉写作提示语料库上生成的叙事，研究了视觉基础故事中的叙事连贯性。利用一组捕捉叙事连贯性不同方面的度量指标——包括指代、话语关系类型、主题连续性、角色持久性和多模态角色基础——我们计算了叙事连贯性得分。研究发现，视觉语言模型展现出与人类系统性不同的广泛相似连贯性特征。此外，单个度量指标的差异通常较为细微，但联合考虑时差异变得更为明显。总体而言，我们的结果表明，尽管模型叙事在表面流畅性上接近人类，但在组织视觉基础故事的话语结构方面，仍表现出与人类叙事系统性的差异。我们的代码可在 https://github.com/GU-CLASP/coherence-driven-humans 获取。

← Back