Enhancing Visual Question Answering with Multimodal LLMs via Chain-of-Question Guided Retrieval-Augmented Generation<br>基于链式问题引导的检索增强生成增强多模态大语言模型视觉问答<br>[摘要](abstracts/2605.03790.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着多模态研究和深度学习的进展，多模态大语言模型已成为处理广泛多模态任务的强大范式。作为视觉-语言研究的核心问题，视觉问答越来越多地采用多模态大语言模型来提升性能，尤其在需要外部知识的开放域场景中。本文旨在通过更有效地将多模态大语言模型与结构化推理和知识获取相结合，进一步增强基于检索的视觉问答方法。我们提出一种逻辑提示策略，将思维链推理与视觉问题分解相融合，称为CoVQD，以引导检索过程为多模态大语言模型推理提供更准确和相关的知识。基于此思想，我们提出新框架CoVQD-guided RAG（CgRAG），使多模态大语言模型在受益于结构化视觉-文本推理引导的同时，能够获取更全面连贯的外部知识，从而提升复杂跨域视觉问答场景中的泛化性和可靠性。在E-VQA、InfoSeek和OKVQA基准上的大量实验证明了所提方法的有效性。

← Back