Neural Garbage Collection: Learning to Forget while Learning to Reason<br>神经垃圾回收：在学会推理的同时学会遗忘<br>[摘要](abstracts/2604.18002.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

思维链推理推动了语言模型能力的显著进步，但每个推理步骤都会增大键值缓存（KV cache），成为进一步扩展该范式的瓶颈。当前方法通过人工设计的标准来代表模型管理这些约束。一种更具可扩展性的方法将让端到端学习完全吸收这一设计选择，遵循深度学习中更广泛的模式。毕竟，如果模型能学会推理，为何不能学会遗忘？我们引入了神经垃圾回收（NGC），其中语言模型在学会推理的同时学会遗忘，仅通过基于结果的任务奖励进行端到端训练。当模型推理时，它会周期性地暂停，决定驱逐哪些KV缓存条目，并在剩余缓存条件下继续推理。通过将思维链中的令牌和缓存驱逐决策视为从语言模型中采样的离散动作，我们可以使用强化学习来联合优化模型的推理方式及其自身内存管理：模型驱逐的内容决定了它记住什么，记住的内容又塑造其推理，而推理的正确性则决定其奖励。关键在于，模型完全从单一学习信号——基于结果的任务奖励——中学习此行为，无需监督微调或代理目标。在Countdown、AMC和AIME任务中，NGC在实现2-3倍峰值KV缓存大小压缩的同时，相对于全缓存上限保持了较高的准确率，并显著优于驱逐基线方法。我们的成果是迈向更广阔愿景的第一步：端到端优化将同时驱动语言模型的能力与效率。

← Back