SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation<br>SAR-RAG:通过语义搜索、检索与多模态大语言模型生成的自动目标识别视觉问答<br>[摘要](abstracts/2602.04712.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本文提出了一种视觉上下文图像检索增强生成(ImageRAG)辅助的AI智能体,用于合成孔径雷达(SAR)的自动目标识别(ATR)。SAR是一种应用于国防与安全领域的遥感方法,用于检测和监控军事车辆的位置,这些车辆在图像中可能难以区分。研究人员已广泛研究SAR ATR,以提升对车辆类型、特征及尺寸的区分与识别能力。测试样本可与已知车辆目标类型进行比较,从而改进识别任务。新方法增强了神经网络、Transformer注意力机制及多模态大语言模型的能力。我们开发了一种智能AI方法,利用一组定义的工具,例如在相似样本库中进行搜索。我们提出的方法——SAR检索增强生成(SAR-RAG),将多模态大语言模型(MLLM)与语义嵌入向量数据库相结合,支持对具有已知特性的图像范例进行上下文搜索。通过检索具有已知真实目标类型的过往图像样本,SAR-RAG系统能够比较相似的车辆类别,从而提升ATR预测精度。我们通过搜索与检索指标、分类准确率以及车辆尺寸的数值回归进行评估。这些指标均表明,将SAR-RAG作为附加的ATR记忆库集成到MLLM基线方法中后,性能得到全面提升。

← Back