SAR-RAG: ATR Visual Question Answering by Semantic Search, Retrieval, and MLLM Generation<br>SAR-RAG：通过语义搜索、检索与多模态大语言模型生成的自动目标识别视觉问答<br>[摘要](abstracts/2602.04712.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

本文提出了一种视觉上下文图像检索增强生成（ImageRAG）辅助的AI智能体，用于合成孔径雷达（SAR）的自动目标识别（ATR）。SAR是一种应用于国防与安全领域的遥感方法，用于检测和监控军事车辆的位置，这些车辆在图像中可能难以区分。研究人员已广泛研究SAR ATR，以提升对车辆类型、特征及尺寸的区分与识别能力。测试样本可与已知车辆目标类型进行比较，从而改进识别任务。新方法增强了神经网络、Transformer注意力机制及多模态大语言模型的能力。我们开发了一种智能AI方法，利用一组定义的工具，例如在相似样本库中进行搜索。我们提出的方法——SAR检索增强生成（SAR-RAG），将多模态大语言模型（MLLM）与语义嵌入向量数据库相结合，支持对具有已知特性的图像范例进行上下文搜索。通过检索具有已知真实目标类型的过往图像样本，SAR-RAG系统能够比较相似的车辆类别，从而提升ATR预测精度。我们通过搜索与检索指标、分类准确率以及车辆尺寸的数值回归进行评估。这些指标均表明，将SAR-RAG作为附加的ATR记忆库集成到MLLM基线方法中后，性能得到全面提升。

← Back