Abstract not available.
大型视觉语言模型(VLMs)通过迭代优化方法在复杂视觉理解任务中展现出巨大潜力。然而,这些模型通常缺乏有效的自我纠正机制,难以独立修正认知偏差。因此,在多轮修订过程中,它们常陷入重复且无效的尝试,无法实现答案质量的稳定提升。为解决这一问题,我们提出了一种新颖的迭代自我纠正框架,赋予模型两项关键能力:能力反思与记忆反思。该框架引导模型首先通过能力反思诊断错误并生成纠正计划,然后利用记忆反思回顾过往尝试以避免重复并探索新解决方案,最终通过严谨的重新推理优化答案。在具有挑战性的OCRBench v2基准测试中,实验表明OCR-Agent在英文和中文子集上分别以+2.0和+1.2的优势超越了当前开源SOTA模型InternVL3-8B,同时在视觉理解(79.9)和推理(66.5)方面达到最先进水平——甚至超越了规模更大的微调模型。我们的方法证明,结构化、自感知的反思能够在不增加额外训练的情况下,显著增强VLMs的推理鲁棒性。代码地址:https://github.com/AIGeeksGroup/OCR-Agent。