OCR-Agent: Agentic OCR with Capability and Memory Reflection<br>OCR-Agent：具备能力与记忆反思的智能OCR代理<br>[摘要](abstracts/2602.21053.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（VLMs）通过迭代优化方法在复杂视觉理解任务中展现出巨大潜力。然而，这些模型通常缺乏有效的自我纠正机制，难以独立修正认知偏差。因此，在多轮修订过程中，它们常陷入重复且无效的尝试，无法实现答案质量的稳定提升。为解决这一问题，我们提出了一种新颖的迭代自我纠正框架，赋予模型两项关键能力：能力反思与记忆反思。该框架引导模型首先通过能力反思诊断错误并生成纠正计划，然后利用记忆反思回顾过往尝试以避免重复并探索新解决方案，最终通过严谨的重新推理优化答案。在具有挑战性的OCRBench v2基准测试中，实验表明OCR-Agent在英文和中文子集上分别以+2.0和+1.2的优势超越了当前开源SOTA模型InternVL3-8B，同时在视觉理解（79.9）和推理（66.5）方面达到最先进水平——甚至超越了规模更大的微调模型。我们的方法证明，结构化、自感知的反思能够在不增加额外训练的情况下，显著增强VLMs的推理鲁棒性。代码地址：https://github.com/AIGeeksGroup/OCR-Agent。

← Back