Abstract not available.
在冷启动场景中,由于缺乏用户交互历史,预测产品品质需依赖图像和文本元数据,这至关重要。然而,现有视觉语言模型通常依赖于大型架构和/或广泛的外部数据集,导致计算成本高昂。为解决此问题,我们提出EffiMiniVLM,一种紧凑的双编码器视觉语言回归框架,它集成了EfficientNet-B0图像编码器、基于MiniLM的文本编码器及轻量级回归头。为提高训练样本效率,我们引入加权Huber损失函数,利用评分计数来强调更可靠的样本,从而带来持续的性能提升。仅使用Amazon Reviews 2023数据集的20%进行训练,该模型包含2770万个参数,需6.8 GFLOPs计算量,却在基准测试中以最低资源成本实现了0.40的CES分数。尽管模型规模小,它仍能与显著更大的模型竞争,在性能相当的同时,资源效率比其他前5名方法高出约4至8倍,且是唯一不使用外部数据集的方法。进一步分析表明,仅将数据规模扩展至40%,我们的模型便能超越其他使用更大模型和数据集的方法,突显了其紧凑设计下强大的可扩展性。