Abstract not available.
大规模多模态模型(LMMs)近期在光学字符识别(OCR)任务中展现出强劲性能,验证了其在文档读写能力方面的潜力。然而,现有基准测试在任务范围设定上与实际应用场景存在偏差,且假设同质化的采集条件,导致模型在真实世界中的效能尚未得到充分探索。为弥补这一空白,我们提出CC-OCR V2——一个面向真实世界文档处理的综合性高难度OCR基准。该基准聚焦于企业级文档处理的实际任务,重点关注前序基准中缺失但至关重要的困难案例与边界场景,涵盖文本识别、文档解析、文档定位、关键信息抽取及文档问答5大OCR核心任务,包含7,093个高难度样本。基于14个先进LMMs的广泛实验表明,当前模型仍无法满足真实世界应用需求。即便是最先进的LMMs,在不同任务与场景下也表现出显著的性能退化。这些发现揭示了当前基准性能与现实应用有效性之间的显著差距。我们已在https://github.com/eioss/CC-OCR-V2开源完整数据集及评估工具包。