Self-Improvement of Large Language Models: A Technical Overview and Future Outlook<br>大型语言模型的自我改进:技术概览与未来展望<br>[摘要](abstracts/2603.25681.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

随着大型语言模型(LLMs)的持续进步,仅依赖人类监督进行改进正变得日益昂贵且可扩展性受限。当模型在某些领域接近人类水平能力时,人类反馈可能无法为后续提升提供足够的信息信号。与此同时,模型在自主决策和执行复杂行动方面不断增强的能力,自然促成了模型开发过程中各环节逐步自动化的抽象构想。这些挑战与机遇共同推动了人们对自我改进日益增长的兴趣,即模型能够自主生成数据、评估输出并迭代优化自身能力。本文从系统层面探讨自我改进的语言模型,并提出了一个统一框架来组织现有技术。我们将自我改进系统概念化为一个闭环生命周期,包含四个紧密耦合的过程:数据获取、数据选择、模型优化和推理精炼,以及一个自主评估层。在此框架内,模型本身在驱动每个阶段中扮演核心角色:收集或生成数据、选择信息信号、更新参数并精炼输出,而自主评估层则持续监控进展并指导跨阶段的改进循环。基于这一生命周期视角,我们从技术角度系统回顾并分析了每个组件的代表性方法。进一步,我们讨论了当前局限性,并展望了未来实现完全自我改进大型语言模型的研究愿景。

← Back