VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought<br>VG-CoT：基于可信视觉推理的接地链式思维方法<br>[摘要](abstracts/2604.21396.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型视觉语言模型（LVLMs）的进步要求精确的局部区域推理，使模型逻辑忠实地基于实际视觉证据。然而，现有数据集因大量人工标注而面临可扩展性限制，且缺乏多步推理与对应图像区域之间的显式对齐，这制约了模型可信度的评估。为解决这些问题，我们提出视觉接地链式思维（VG-CoT）数据集，通过完全自动化的三阶段流程，将每个推理步骤与图像中的真实视觉证据显式关联。该流程首先利用最先进的检测和OCR模型提取物体级和文本级视觉证据，随后借助GPT-4o生成逐步接地的推理过程，最后通过基于理由的开放集检测优化接地。此外，我们引入了一个新基准，从三个互补维度全面评估LVLMs的推理能力：理由质量、答案准确性以及推理-答案对齐。对代表性LVLMs（包括LLaVA-1.5和Qwen2-VL）的实验表明，其在大多数评估指标上均有一致性提升，证实VG-CoT在保持数据集构建可扩展性和成本效益的同时，有效增强了可信的、基于证据的推理。数据集和代码将在接收后公开发布，以促进进一步研究。

← Back