Abstract not available.
AI模型在文本推理方面已达到最先进水平,但其在空间和关系结构上的推理能力仍是一个关键瓶颈——尤其是在低年级数学中,这类问题高度依赖视觉信息。本文介绍了视觉推理基准(VRB),这是一个新颖的数据集,旨在评估多模态大语言模型(MLLMs)解决课堂真实视觉问题的能力。该基准基于从赞比亚和印度小学考试中收集的701道题目构建,涵盖类比推理、模式补全和空间匹配等多种任务。我们概述了基准的方法论和开发过程,其有意使用未经编辑、文本极少的图像,以测试模型是否能满足基础教育的实际需求。我们的研究揭示了一个“能力参差不齐的前沿”:模型在静态技能(如计数和缩放)上表现出较好的熟练度,但在面对动态操作(如折叠、反射和旋转)时,却触及了一个明显的“空间天花板”。这些弱点对课堂中视觉推理问题的应用构成了风险,可能导致错误评分、虚假辅助以及强化学生的误解。因此,像VRB这样专注于教育的基准对于确定课堂中使用的多模态工具的功能边界至关重要。