Rethinking Model Efficiency: Multi-Agent Inference with Large Models<br>重新思考模型效率:大模型的多智能体推理<br>[摘要](abstracts/2604.04929.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大多数视觉语言模型(VLMs)采用大型语言模型(LLM)作为解码器,其中响应令牌通过自回归方式顺序生成。因此,输出令牌的数量可能成为端到端延迟的瓶颈。然而,不同模型可能需要差异巨大的输出令牌数量才能达到相当的性能。在本研究中,我们对模拟数据上VLMs各组成部分的延迟进行了全面分析。实验表明,输出令牌较少的大模型可能比输出序列较长的小模型更高效。在多样化真实世界基准测试上的实证研究证实了这一观察:大模型能够以显著更少的输出令牌实现优于或相当于小模型的性能。为利用大模型的效率,我们提出了一种多智能体推理框架,该框架保持大模型生成简短响应,但在必要时从小模型转移关键推理令牌。在基准任务上的比较表明,通过复用来自小模型的推理令牌,可以帮助接近大模型自身推理的性能,这证实了我们方案的有效性。

← Back