POINTS-Seeker: Towards Training a Multimodal Agentic Search Model from Scratch<br>POINTS-Seeker：迈向从零开始训练多模态智能搜索模型<br>[摘要](abstracts/2604.14029.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

尽管大型多模态模型（LMMs）展现出令人印象深刻的视觉感知能力，但其静态参数化知识仍限制了其认知边界。为突破这一局限，多模态搜索模型被引入以主动与外部环境交互进行证据检索。不同于当前主流范式仅将通用LMMs与搜索工具作为模块化扩展进行改造，我们探索了从零构建多模态智能搜索模型的潜力。具体而言，我们做出以下贡献：（i）提出“智能播种”阶段，专门设计用于编织激发智能行为所需的基础前驱要素；（ii）揭示了长程交互中的性能瓶颈：随着交互历史量的增加，模型定位真实证据的能力被淹没。为此，我们提出V-Fold——一种自适应历史感知压缩方案，该方案以高保真度保留近期对话轮次，同时通过渲染将历史上下文折叠至视觉空间；（iii）开发了POINTS-Seeker-8B模型，这是一个在多模态智能搜索领域领先的模型，在六个多样化基准测试中持续超越现有模型，有效解决了长程、知识密集型视觉推理的挑战。

← Back