Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models<br>Vision-DeepResearch基准：重新思考多模态大语言模型的视觉与文本搜索能力<br>[摘要](abstracts/2602.02185.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

多模态大语言模型（MLLMs）已推动视觉问答（VQA）的发展，并支持利用搜索引擎进行复杂视觉-文本事实查找的Vision-DeepResearch系统。然而，评估这些视觉与文本搜索能力仍具挑战，现有基准存在两大局限。首先，现有基准并非以视觉搜索为核心：本需视觉搜索的答案常通过文本问题中的跨文本线索泄露，或可从当前MLLMs的先验世界知识中推断。其次，评估场景过于理想化：在图像搜索方面，所需信息常可通过与完整图像的近似精确匹配获取；而文本搜索则过于直接且挑战性不足。为解决这些问题，我们构建了包含2000个VQA实例的Vision-DeepResearch基准（VDR-Bench）。所有问题均通过细致多阶段筛选流程与严格专家评审创建，旨在评估Vision-DeepResearch系统在真实世界条件下的表现。此外，针对当前MLLMs视觉检索能力不足的问题，我们提出一种简单的多轮裁剪搜索工作流程。该策略被证明能有效提升模型在真实视觉检索场景中的性能。总体而言，我们的研究结果为未来多模态深度研究系统的设计提供了实用指导。代码将在https://github.com/Osilly/Vision-DeepResearch发布。

← Back