Abstract not available.
大型视觉语言模型(LVLMs)的进步要求精确的局部区域推理,使模型逻辑忠实地基于实际视觉证据。然而,现有数据集因大量人工标注而面临可扩展性限制,且缺乏多步推理与对应图像区域之间的显式对齐,这制约了模型可信度的评估。为解决这些问题,我们提出视觉接地链式思维(VG-CoT)数据集,通过完全自动化的三阶段流程,将每个推理步骤与图像中的真实视觉证据显式关联。该流程首先利用最先进的检测和OCR模型提取物体级和文本级视觉证据,随后借助GPT-4o生成逐步接地的推理过程,最后通过基于理由的开放集检测优化接地。此外,我们引入了一个新基准,从三个互补维度全面评估LVLMs的推理能力:理由质量、答案准确性以及推理-答案对齐。对代表性LVLMs(包括LLaVA-1.5和Qwen2-VL)的实验表明,其在大多数评估指标上均有一致性提升,证实VG-CoT在保持数据集构建可扩展性和成本效益的同时,有效增强了可信的、基于证据的推理。数据集和代码将在接收后公开发布,以促进进一步研究。