AeroRAG: Structured Multimodal Retrieval-Augmented LLM for Fine-Grained Aerial Visual Reasoning<br>AeroRAG：面向细粒度航空视觉推理的结构化多模态检索增强大语言模型<br>[摘要](abstracts/2604.17889.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管多模态大语言模型（MLLMs）近期取得了进展，但在航空场景中实现可靠的视觉问答仍面临挑战。此类场景中，任务关键证据常由小物体、明确数量、粗略位置及物体间关系承载，而传统的密集视觉标记表示与这些结构化语义未能良好对齐。为解决这一接口不匹配问题，本文提出AeroRAG——一种基于场景图引导的多模态检索增强生成框架，用于视觉问答。该框架首先将输入图像转换为结构化视觉知识，包括物体类别、数量、空间位置及语义关系，随后检索与查询相关的语义片段以构建简洁提示，供基于文本的大语言模型使用。相较于直接对密集视觉标记进行推理，本方法在感知与语言推理之间引入了更明确的中间接口。在AUG航空数据集和通用领域VG-150基准上的实验表明，相较于六个强基线MLLM模型，本方法取得了持续的性能提升，且在密集航空场景和关系敏感推理任务中增益最为显著。我们进一步在VQAv2数据集上评估该框架，验证了所提接口仍兼容标准视觉推理场景。这些结果表明，结构化检索是面向实际部署与具身视觉推理系统的一种实用设计方向。

← Back