Abstract not available.
遥感岩性解译是地质调查、矿产勘探和区域地质填图的基础工作。与一般的地物识别不同,岩性解译是一项知识密集型任务,需要专家从多种特征(如细微的视觉、光谱、纹理、地貌和上下文线索)中推断岩石类型,这使得可靠的自动化解译极具挑战性。融入地质知识的大规模多模态模型为此提供了新的机遇,但由于缺乏涵盖岩性标注、多层次地质语义和专家评估的基准测试,对这类模型的评估仍然受限。为此,我们提出了LithoBench,这是一个用于评估遥感岩性解译中地质语义理解能力的多层次基准测试。LithoBench包含10,000个专家标注的解译实例,涵盖12个代表性岩性类别,包括4,000个选择题和6,000个开放题任务,这些任务按照五个认知层次组织:识别与描述、比较分析、机制解释、实际应用和综合推理。我们进一步开发了一种“专家在环”、基于知识的半自动构建流程,通过耦合多个子过程(例如结构化地质图像描述)来增强地质有效性和评估可靠性。对多个大规模视觉-语言模型的实验表明,模型在地质语义理解上存在显著局限性,尤其是在高阶解释、应用和推理任务方面。