CC-OCR V2: Benchmarking Large Multimodal Models for Literacy in Real-world Document Processing<br>CC-OCR V2: 面向真实世界文档处理的大规模多模态模型读写能力基准评测<br>[摘要](abstracts/2605.03903.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大规模多模态模型（LMMs）近期在光学字符识别（OCR）任务中展现出强劲性能，验证了其在文档读写能力方面的潜力。然而，现有基准测试在任务范围设定上与实际应用场景存在偏差，且假设同质化的采集条件，导致模型在真实世界中的效能尚未得到充分探索。为弥补这一空白，我们提出CC-OCR V2——一个面向真实世界文档处理的综合性高难度OCR基准。该基准聚焦于企业级文档处理的实际任务，重点关注前序基准中缺失但至关重要的困难案例与边界场景，涵盖文本识别、文档解析、文档定位、关键信息抽取及文档问答5大OCR核心任务，包含7,093个高难度样本。基于14个先进LMMs的广泛实验表明，当前模型仍无法满足真实世界应用需求。即便是最先进的LMMs，在不同任务与场景下也表现出显著的性能退化。这些发现揭示了当前基准性能与现实应用有效性之间的显著差距。我们已在https://github.com/eioss/CC-OCR-V2开源完整数据集及评估工具包。

← Back