EffiMiniVLM: A Compact Dual-Encoder Regression Framework<br>EffiMiniVLM：一种紧凑型双编码器回归框架<br>[摘要](abstracts/2604.03172.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

在冷启动场景中，由于缺乏用户交互历史，预测产品品质需依赖图像和文本元数据，这至关重要。然而，现有视觉语言模型通常依赖于大型架构和/或广泛的外部数据集，导致计算成本高昂。为解决此问题，我们提出EffiMiniVLM，一种紧凑的双编码器视觉语言回归框架，它集成了EfficientNet-B0图像编码器、基于MiniLM的文本编码器及轻量级回归头。为提高训练样本效率，我们引入加权Huber损失函数，利用评分计数来强调更可靠的样本，从而带来持续的性能提升。仅使用Amazon Reviews 2023数据集的20%进行训练，该模型包含2770万个参数，需6.8 GFLOPs计算量，却在基准测试中以最低资源成本实现了0.40的CES分数。尽管模型规模小，它仍能与显著更大的模型竞争，在性能相当的同时，资源效率比其他前5名方法高出约4至8倍，且是唯一不使用外部数据集的方法。进一步分析表明，仅将数据规模扩展至40%，我们的模型便能超越其他使用更大模型和数据集的方法，突显了其紧凑设计下强大的可扩展性。

← Back