Abstract not available.
视觉语言模型(VLM)的发展主要依赖于模型规模的扩展,这阻碍了其在计算资源受限的移动和边缘设备(如智能手机和机器人)上的部署。在本研究中,我们探索了紧凑型(例如2B和8B参数)VLM的性能极限。我们挑战了当前主流实践,即最先进的VLM必须依赖通过大规模对比预训练(如CLIP/SigLIP)初始化的视觉编码器。我们发现了一个目标不匹配问题:对比学习以判别性优化为主,强制了粗粒度和类别级的不变性,抑制了密集描述和复杂VLM推理所需的细粒度视觉线索。为解决这一问题,我们提出了Penguin-VL,其视觉编码器从纯文本大型语言模型(LLM)初始化。实验表明,Penguin-Encoder可作为传统对比预训练的优越替代方案,为多模态理解解锁了更高的视觉保真度和数据效率。在多种图像和视频基准测试中,Penguin-VL在数学推理任务上达到与领先VLM(如Qwen3-VL)相当的性能,并在文档理解、视觉知识和多视角视频理解等任务中超越它们。值得注意的是,这些性能提升是通过轻量级架构实现的,表明改进视觉表征而非模型缩放是性能提升的主要驱动力。我们的消融实验显示,Penguin-Encoder始终优于对比预训练的编码器,保留了密集感知和复杂推理所需的关键细粒度空间和时间线索。这使其成为计算高效VLM的强大即插即用替代方案,并在资源受限环境中实现高性能。代码:https://github.com/tencent-ailab/Penguin-VL