Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders<br>Penguin-VL：探索基于LLM视觉编码器的视觉语言模型效率极限<br>[摘要](abstracts/2603.06569.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

视觉语言模型（VLM）的发展主要依赖于模型规模的扩展，这阻碍了其在计算资源受限的移动和边缘设备（如智能手机和机器人）上的部署。在本研究中，我们探索了紧凑型（例如2B和8B参数）VLM的性能极限。我们挑战了当前主流实践，即最先进的VLM必须依赖通过大规模对比预训练（如CLIP/SigLIP）初始化的视觉编码器。我们发现了一个目标不匹配问题：对比学习以判别性优化为主，强制了粗粒度和类别级的不变性，抑制了密集描述和复杂VLM推理所需的细粒度视觉线索。为解决这一问题，我们提出了Penguin-VL，其视觉编码器从纯文本大型语言模型（LLM）初始化。实验表明，Penguin-Encoder可作为传统对比预训练的优越替代方案，为多模态理解解锁了更高的视觉保真度和数据效率。在多种图像和视频基准测试中，Penguin-VL在数学推理任务上达到与领先VLM（如Qwen3-VL）相当的性能，并在文档理解、视觉知识和多视角视频理解等任务中超越它们。值得注意的是，这些性能提升是通过轻量级架构实现的，表明改进视觉表征而非模型缩放是性能提升的主要驱动力。我们的消融实验显示，Penguin-Encoder始终优于对比预训练的编码器，保留了密集感知和复杂推理所需的关键细粒度空间和时间线索。这使其成为计算高效VLM的强大即插即用替代方案，并在资源受限环境中实现高性能。代码：https://github.com/tencent-ailab/Penguin-VL

← Back