Rethinking Model Efficiency: Multi-Agent Inference with Large Models<br>重新思考模型效率：大模型的多智能体推理<br>[摘要](abstracts/2604.04929.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

大多数视觉语言模型（VLMs）采用大型语言模型（LLM）作为解码器，其中响应令牌通过自回归方式顺序生成。因此，输出令牌的数量可能成为端到端延迟的瓶颈。然而，不同模型可能需要差异巨大的输出令牌数量才能达到相当的性能。在本研究中，我们对模拟数据上VLMs各组成部分的延迟进行了全面分析。实验表明，输出令牌较少的大模型可能比输出序列较长的小模型更高效。在多样化真实世界基准测试上的实证研究证实了这一观察：大模型能够以显著更少的输出令牌实现优于或相当于小模型的性能。为利用大模型的效率，我们提出了一种多智能体推理框架，该框架保持大模型生成简短响应，但在必要时从小模型转移关键推理令牌。在基准任务上的比较表明，通过复用来自小模型的推理令牌，可以帮助接近大模型自身推理的性能，这证实了我们方案的有效性。

← Back