VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?<br>VISTA-Bench：视觉语言模型真的能像理解纯文本一样理解图像中的文本吗？<br>[摘要](abstracts/2602.04802.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLMs）在跨文本与视觉输入的多模态理解方面取得了显著成就，但现有基准测试主要关注纯文本查询。在现实场景中，语言也常以图像中嵌入的可视化文本形式出现，这引发了一个问题：当前的VLMs是否能同等处理这类输入请求。我们推出了VISTA-Bench，这是一个从多模态感知、推理到单模态理解领域的系统性基准测试。它通过在受控渲染条件下对比纯文本与可视化文本问题，评估模型对可视化文本的理解能力。对超过20个代表性VLMs的广泛评估揭示了一个显著的模态差距：在纯文本查询上表现良好的模型，当相同语义内容以可视化文本呈现时，性能往往大幅下降。这种差距随着感知难度的增加而进一步放大，突显了模型对渲染变化的敏感性，尽管语义内容保持不变。总体而言，VISTA-Bench提供了一个原则性的评估框架，用于诊断这一局限性，并指导在标记化文本与像素之间实现更统一语言表征的进展。源数据集可在https://github.com/QingAnLiu/VISTA-Bench获取。

← Back