Abstract not available.
多模态大语言模型(MLLMs)已推动视觉问答(VQA)的发展,并支持利用搜索引擎进行复杂视觉-文本事实查找的Vision-DeepResearch系统。然而,评估这些视觉与文本搜索能力仍具挑战,现有基准存在两大局限。首先,现有基准并非以视觉搜索为核心:本需视觉搜索的答案常通过文本问题中的跨文本线索泄露,或可从当前MLLMs的先验世界知识中推断。其次,评估场景过于理想化:在图像搜索方面,所需信息常可通过与完整图像的近似精确匹配获取;而文本搜索则过于直接且挑战性不足。为解决这些问题,我们构建了包含2000个VQA实例的Vision-DeepResearch基准(VDR-Bench)。所有问题均通过细致多阶段筛选流程与严格专家评审创建,旨在评估Vision-DeepResearch系统在真实世界条件下的表现。此外,针对当前MLLMs视觉检索能力不足的问题,我们提出一种简单的多轮裁剪搜索工作流程。该策略被证明能有效提升模型在真实视觉检索场景中的性能。总体而言,我们的研究结果为未来多模态深度研究系统的设计提供了实用指导。代码将在https://github.com/Osilly/Vision-DeepResearch发布。