Decoding the Delta: Unifying Remote Sensing Change Detection and Understanding with Multimodal Large Language Models<br>解码变化:利用多模态大语言模型统一遥感变化检测与理解<br>[摘要](abstracts/2604.14044.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管多模态大语言模型(MLLMs)在通用视觉-语言任务中表现出色,但其在遥感变化理解中的应用却受限于一种根本性的“时间盲视”。现有架构缺乏内在的多时相对比推理机制,且难以实现精确的空间定位。为解决这一问题,我们首先引入了Delta-QA,一个包含18万个视觉问答样本的综合基准。Delta-QA统一了双时相和三时相场景下的像素级分割与视觉问答,将变化解释结构化为四个递进的认知维度。在方法上,我们提出了Delta-LLaVA,一个专为多时相遥感解释设计的新型MLLM框架。它通过三项核心创新克服了简单特征拼接的局限:一个系统性地隔离并增强视觉差异的变化增强注意力模块;一个利用变化先验嵌入提取可微分差异特征作为大语言模型输入的Change-SEG模块;以及防止跨时相上下文泄露的局部因果注意力机制。大量实验表明,Delta-LLaVA在复杂变化推理和高精度边界定位方面显著优于领先的通用MLLMs和专用分割模型,从而为地球观测智能建立了一个统一的框架。

← Back