POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch<br>POINTS-Seeker:迈向从零开始训练多模态智能搜索模型<br>[摘要](abstracts/2604.14029.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大型多模态模型(LMMs)展现出令人印象深刻的视觉感知能力,但其静态参数化知识仍限制了其认知边界。为突破这一局限,多模态搜索模型被引入以主动与外部环境交互进行证据检索。不同于当前主流范式仅将通用LMMs与搜索工具作为模块化扩展进行改造,我们探索了从零构建多模态智能搜索模型的潜力。具体而言,我们做出以下贡献:(i)提出“智能播种”阶段,专门设计用于编织激发智能行为所需的基础前驱要素;(ii)揭示了长程交互中的性能瓶颈:随着交互历史量的增加,模型定位真实证据的能力被淹没。为此,我们提出V-Fold——一种自适应历史感知压缩方案,该方案以高保真度保留近期对话轮次,同时通过渲染将历史上下文折叠至视觉空间;(iii)开发了POINTS-Seeker-8B模型,这是一个在多模态智能搜索领域领先的模型,在六个多样化基准测试中持续超越现有模型,有效解决了长程、知识密集型视觉推理的挑战。

← Back