VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters<br>VisionPangu：一款拥有17亿参数的紧凑且细粒度多模态助手<br>[摘要](abstracts/2603.04957.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大型多模态模型（LMMs）在视觉语言理解方面已展现出强大性能，但现有方法多依赖于大规模架构和粗粒度监督，这限制了其生成详细图像描述的能力。本研究提出VisionPangu，一个紧凑的17亿参数多模态模型，旨在通过高效的多模态对齐和高质量监督来改进详细图像描述生成。该模型通过轻量级MLP投影器，将基于InternVL的视觉编码器与OpenPangu-Embedded语言主干相结合，并采用受LLaVA启发的指令调优流程。通过整合来自DOCCI数据集的密集人工撰写描述，VisionPangu在不依赖激进模型扩展的情况下，提升了语义连贯性和描述丰富度。实验结果表明，紧凑的多模态模型能够实现具有竞争力的性能，同时生成更具结构性和细节的描述。代码和模型权重将在https://www.modelscope.cn/models/asdfgh007/visionpangu公开提供。

← Back