Abstract not available.
视觉语言模型(VLMs)在地球观测(EO)领域展现出潜力,但在需要将复杂空间推理与精确像素级视觉表征相融合的任务中仍面临挑战。为解决这一问题,我们提出了TerraScope,一个统一的视觉语言模型,具备两项核心能力以实现像素级地理空间推理:(1)模态灵活推理:能够处理单模态输入(光学或合成孔径雷达),并在多模态可用时自适应融合不同模态至推理过程;(2)多时序推理:可整合时间序列数据,实现跨多个时间点的变化分析。此外,我们构建了Terra-CoT数据集,包含100万个样本,其推理链中嵌入了来自多源数据的像素级掩码。同时,我们提出了首个像素级地理空间推理基准TerraScope-Bench,涵盖六个子任务,通过评估答案准确性与掩码质量确保真实的像素级推理。实验表明,TerraScope在像素级地理空间推理任务上显著优于现有视觉语言模型,并能提供可解释的视觉证据。