Abstract not available.
光谱是一种普遍存在且信息密度极高的科学图像类型,由于其非结构化和领域特异性特征,对多模态大语言模型构成了重大挑战。本文提出了SpecVQA——一个专业科学图像基准,用于评估多模态模型在科学光谱理解方面的能力,涵盖7种代表性光谱类型,并配有专家标注的问答对。该基准旨在实现两个目标:光谱科学问答评估及相应的底层任务评估。SpecVQA包含从同行评审文献中精选的620幅图像和3100个问答对,兼顾直接信息提取和领域特定推理。为在保留关键曲线特征的同时有效降低标记长度,我们提出了一种光谱数据采样与插值重建方法。消融研究进一步证实,该方法在基准测试中取得了显著的性能提升。我们在该基准上测试了主流多模态大语言模型在科学光谱理解方面的能力,并提供了排行榜。这项工作标志着向增强多模态大模型光谱理解能力迈出了关键一步,并为将视觉-语言模型扩展到更广泛的科学研究和数据分析领域指明了有前景的方向。