Abstract not available.
企业文档(如表格和报告)中蕴含的关键信息对于数据归档、自动化工作流和分析等下游应用至关重要。尽管通用视觉语言模型在现有文档理解基准测试中表现良好,但其在不同文档类型和灵活模式间进行整体、细粒度结构化提取的能力尚未得到充分研究。现有的关键实体提取、关系提取和视觉问答数据集受限于狭窄的实体本体、简单查询或同质文档类型,往往忽视了适应性结构化提取的需求。为填补这些空白,我们提出了ExStrucTiny——一个面向文档图像结构化信息提取的新基准数据集,它统一了关键实体提取、关系提取和视觉问答的多个方面。通过结合人工与合成人工验证样本的新颖流程构建,ExStrucTiny涵盖了更丰富的文档类型和提取场景。我们在此基准上分析了开放和封闭的视觉语言模型,揭示了模式适配、查询欠规范和答案定位等挑战。我们希望这项工作能为提升通用模型在文档结构化信息提取方面的能力奠定基础。