On the Cultural Anachronism and Temporal Reasoning in Vision Language Models<br>论视觉语言模型中的文化时代错位与时间推理<br>[摘要](abstracts/2605.15071.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLM）正越来越多地应用于文化遗产材料，从数字档案馆到教育平台。本研究识别出这些模型在解释历史文物时存在的一个根本性问题。我们将这一现象定义为文化时代错位，即倾向于使用时序上不当的概念、材料或文化框架来误解历史物体。为了量化这一现象，我们引入了视觉语言模型时间时代错位基准（TAB-VLM），这是一个包含六个类别600道问题的数据集，旨在评估对跨越史前到现代时期的1,600件印度文化文物的时间推理能力。对十个最先进模型的系统评估揭示了它们在基准上的显著缺陷，即使是表现最好的模型（GPT-5.2）也仅达到58.7%的整体准确率。在不同架构和规模的模型中，性能差距持续存在，表明无论模型大小如何，文化时代错位都是视觉AI系统的一个显著局限。这些发现凸显了当前VLM能力与准确解读文化遗产材料（尤其是训练数据中代表性不足的非西方视觉文化）所需能力之间的差距。我们的基准为增强与历史文物交互的多模态AI系统的时间认知能力奠定了基础。数据集和代码可在我们的项目页面上获取。

← Back