Symbolic Grounding Reveals Representational Bottlenecks in Abstract Visual Reasoning<br>符号化根基揭示抽象视觉推理中的表征瓶颈<br>[摘要](abstracts/2604.21346.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉-语言模型在Bongard问题等抽象视觉推理基准上常常失败，这引发了核心瓶颈在于推理还是表征的疑问。本研究通过Bongard-LOGO（一个具有真值生成程序的抽象概念学习合成基准），对比了原始图像上的端到端视觉-语言模型与基于图像衍生符号输入的大语言模型。我们将符号输入作为诊断探针而非实用多模态架构，提出的“成分-语法（C-G）”范式将Bongard-LOGO重新定义为基于LOGO风格动作程序或结构化描述的符号推理任务。大语言模型在自由形式问题上达到90%以上的准确率，取得了显著且稳定的性能提升，而强大的视觉基线模型在匹配任务定义下仍接近随机水平。针对输入格式、显式概念提示和最小视觉基础化的消融实验表明，这些因素的重要性远小于从像素到符号结构的转变。这些结果指出表征是抽象视觉推理的关键瓶颈，并展示了符号输入如何作为受控的诊断性性能上限。

← Back