

LLM 经典脉络回顾
按技术演进与公司谱系梳理 LLM 领域最具代表性的论文(Scaling Laws / 对齐 / 推理 / RAG / MoE / 代表模型)
views
| comments
评分准则
脉络总览(按演进顺序)#
| 阶段 | 主题 | 代表论文 |
|---|---|---|
| 基础架构 | Transformer 统一序列建模 | Attention Is All You Need(NeurIPS 2017) |
| 预训练范式 | 编码器与通用表征 | BERT(NAACL 2019) |
| LLM 爆发 | 少样本能力与规模效应 | GPT-3 / Language Models are Few-Shot Learners(NeurIPS 2020) |
| 规模方法论 | Scaling Laws 与算力分配 | Scaling Laws for Neural Language Models(2020) |
| 规模方法论 | 计算最优训练(Chinchilla) | Training Compute-Optimal Large Language Models(NeurIPS 2022) |
| 外部知识 | RAG 检索增强生成 | Retrieval-Augmented Generation(NeurIPS 2020) |
| 稀疏计算 | MoE 扩展到万亿参数 | Switch Transformers(JMLR 2022) |
| 对齐与指令跟随 | RLHF 训练指令模型 | Training language models to follow instructions with human feedback(NeurIPS 2022) |
| 推理能力 | CoT 提示引出推理 | Chain-of-Thought Prompting(2022) |
| 开源高效 | 公开数据训练强 LLM | LLaMA(2023) |
基础架构#
Transformer#
Arxiv ID
1706.03762
幻觉翻译
1706.03762
提出纯自注意力的 Transformer 架构,显著提升并行效率与建模能力,成为后续 LLM 与多模态模型的统一底座。
推荐指数:
预训练范式#
BERT#
Arxiv ID
1810.04805
幻觉翻译
1810.04805
通过 MLM 等预训练目标学习双向上下文表征,推动“预训练 + 微调”成为 NLP 主流范式,并影响了后续很多 encoder/检索相关工作。
推荐指数:
LLM 爆发#
GPT-3#
规模方法论(Scaling)#
Scaling Laws#
Chinchilla / 计算最优训练#
外部知识与记忆#
RAG#
稀疏计算(MoE)#
Switch Transformers#
对齐与指令跟随(Alignment)#
InstructGPT / RLHF#
Arxiv ID
2203.02155
幻觉翻译
2203.02155
提出一套可落地的“监督示例 + 偏好比较 + 强化学习”流程,让模型更符合人类指令与偏好,奠定现代对齐训练的主流实践。
推荐指数:
推理能力(Reasoning)#
Chain-of-Thought#
Arxiv ID
2201.11903
幻觉翻译
2201.11903
证明给出中间推理步骤示例能显著提升复杂推理任务表现,推动 CoT、Self-Consistency 等提示与推理范式的广泛应用。
推荐指数:
开源高效(Open LLM)#
LLaMA#
公司 / 团队谱系(按机构分类)#
DeepSeek(算法 + 训练范式 + 模型演进)#
| 方向 | 关键词 | 代表论文 |
|---|---|---|
| 强化学习推理 | GRPO | DeepSeekMath(2024) |
| 推理能力 | RL 驱动推理 | DeepSeek-R1(2025) |
| 推理/泛化增强 | Training-Free GRPO | Training-Free GRPO(2025) |
| 模型迭代 | 高效开放模型 | DeepSeek-V3.2(2025) |
| 架构与扩展 | mHC | mHC: Manifold-Constrained Hyper-Connections(2025/2026) |
| 方法总结 | DeepSeek 范式 | DeepSeek: Paradigm Shifts and Technical Evolution…(2025) |
DeepSeekMath(GRPO)#
DeepSeek-R1#
Training-Free GRPO#
DeepSeek-V3.2#
mHC#
DeepSeek 范式总结(含 GRPO/MLA/MoE/MTP 等)#
Arxiv ID
2507.09955
幻觉翻译
2507.09955
系统回顾 DeepSeek 路线中的关键算法与范式变化,覆盖注意力结构、稀疏/专家、训练目标与强化学习方法等多个层面。
推荐指数: