VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?<br>VISTA-Bench:视觉语言模型真的能像理解纯文本一样理解图像中的文本吗?<br>[摘要](abstracts/2602.04802.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型(VLMs)在跨文本与视觉输入的多模态理解方面取得了显著成就,但现有基准测试主要关注纯文本查询。在现实场景中,语言也常以图像中嵌入的可视化文本形式出现,这引发了一个问题:当前的VLMs是否能同等处理这类输入请求。我们推出了VISTA-Bench,这是一个从多模态感知、推理到单模态理解领域的系统性基准测试。它通过在受控渲染条件下对比纯文本与可视化文本问题,评估模型对可视化文本的理解能力。对超过20个代表性VLMs的广泛评估揭示了一个显著的模态差距:在纯文本查询上表现良好的模型,当相同语义内容以可视化文本呈现时,性能往往大幅下降。这种差距随着感知难度的增加而进一步放大,突显了模型对渲染变化的敏感性,尽管语义内容保持不变。总体而言,VISTA-Bench提供了一个原则性的评估框架,用于诊断这一局限性,并指导在标记化文本与像素之间实现更统一语言表征的进展。源数据集可在https://github.com/QingAnLiu/VISTA-Bench获取。

← Back