LLM 经典脉络回顾 • 20Bytes Log

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

脉络总览（按演进顺序）#

阶段	主题	代表论文
基础架构	Transformer 统一序列建模	Attention Is All You Need（NeurIPS 2017）
预训练范式	编码器与通用表征	BERT（NAACL 2019）
LLM 爆发	少样本能力与规模效应	GPT-3 / Language Models are Few-Shot Learners（NeurIPS 2020）
规模方法论	Scaling Laws 与算力分配	Scaling Laws for Neural Language Models（2020）
规模方法论	计算最优训练（Chinchilla）	Training Compute-Optimal Large Language Models（NeurIPS 2022）
外部知识	RAG 检索增强生成	Retrieval-Augmented Generation（NeurIPS 2020）
稀疏计算	MoE 扩展到万亿参数	Switch Transformers（JMLR 2022）
对齐与指令跟随	RLHF 训练指令模型	Training language models to follow instructions with human feedback（NeurIPS 2022）
推理能力	CoT 提示引出推理	Chain-of-Thought Prompting（2022）
开源高效	公开数据训练强 LLM	LLaMA（2023）

基础架构#

Transformer#

Arxiv ID 1706.03762

幻觉翻译 1706.03762

提出纯自注意力的 Transformer 架构，显著提升并行效率与建模能力，成为后续 LLM 与多模态模型的统一底座。

推荐指数：

预训练范式#

BERT#

Arxiv ID 1810.04805

幻觉翻译 1810.04805

通过 MLM 等预训练目标学习双向上下文表征，推动“预训练 + 微调”成为 NLP 主流范式，并影响了后续很多 encoder/检索相关工作。

推荐指数：

LLM 爆发#

GPT-3#

Arxiv ID 2005.14165

幻觉翻译 2005.14165

展示规模化自回归语言模型的强少样本能力，显著降低任务特定微调依赖，推动“用提示完成任务”的交互范式普及。

推荐指数：

规模方法论（Scaling）#

Scaling Laws#

Arxiv ID 2001.08361

幻觉翻译 2001.08361

系统总结模型规模、数据规模与训练算力之间的幂律关系，为训练预算分配与趋势外推提供可操作的方法论。

推荐指数：

Chinchilla / 计算最优训练#

Arxiv ID 2203.15556

幻觉翻译 2203.15556

指出很多大模型训练“数据不够、模型过大”，并给出计算最优的规模-数据配比规律，直接影响后续大模型训练配方。

推荐指数：

外部知识与记忆#

RAG#

Arxiv ID 2005.11401

幻觉翻译 2005.11401

把可微检索引入生成模型，在知识密集任务上显著提升事实性与可更新性，并为“检索增强 + 生成”系统化应用奠基。

推荐指数：

稀疏计算（MoE）#

Switch Transformers#

Arxiv ID 2101.03961

幻觉翻译 2101.03961

通过更简单高效的路由与训练技巧，让 MoE 更稳定可扩展，在计算成本基本不变的情况下把参数规模推向更大。

推荐指数：

对齐与指令跟随（Alignment）#

InstructGPT / RLHF#

Arxiv ID 2203.02155

幻觉翻译 2203.02155

提出一套可落地的“监督示例 + 偏好比较 + 强化学习”流程，让模型更符合人类指令与偏好，奠定现代对齐训练的主流实践。

推荐指数：

推理能力（Reasoning）#

Chain-of-Thought#

Arxiv ID 2201.11903

幻觉翻译 2201.11903

证明给出中间推理步骤示例能显著提升复杂推理任务表现，推动 CoT、Self-Consistency 等提示与推理范式的广泛应用。

推荐指数：

开源高效（Open LLM）#

LLaMA#

Arxiv ID 2302.13971

幻觉翻译 2302.13971

展示用公开数据也能训练出强竞争力的基础模型，并推动开源 LLM 生态快速发展与复现研究繁荣。

推荐指数：

公司 / 团队谱系（按机构分类）#

DeepSeek（算法 + 训练范式 + 模型演进）#

方向	关键词	代表论文
强化学习推理	GRPO	DeepSeekMath（2024）
推理能力	RL 驱动推理	DeepSeek-R1（2025）
推理/泛化增强	Training-Free GRPO	Training-Free GRPO（2025）
模型迭代	高效开放模型	DeepSeek-V3.2（2025）
架构与扩展	mHC	mHC: Manifold-Constrained Hyper-Connections（2025/2026）
方法总结	DeepSeek 范式	DeepSeek: Paradigm Shifts and Technical Evolution…（2025）

DeepSeekMath（GRPO）#

Arxiv ID 2402.03300

幻觉翻译 2402.03300

提出 GRPO 等训练方法来增强数学推理能力，并强调在资源与内存成本可控的前提下提升强化学习训练效率。

推荐指数：

DeepSeek-R1#

Arxiv ID 2501.12948

幻觉翻译 2501.12948

围绕推理能力进行强化学习驱动的训练设计，强调通过奖励信号与训练策略提升多步推理与解题能力。

推荐指数：

Training-Free GRPO#

Arxiv ID 2510.08191

幻觉翻译 2510.08191

探索更轻量的 GRPO 使用方式，在很少样本与低成本条件下提升模型的域外泛化与任务表现。

推荐指数：

DeepSeek-V3.2#

Arxiv ID 2512.02556

幻觉翻译 2512.02556

强调在计算效率与推理/代理能力之间取得更好的平衡，体现开源模型在工程与能力上的持续迭代路线。

推荐指数：

mHC#

Arxiv ID 2512.24880

幻觉翻译 2512.24880

提出流形约束的超连接机制，目标是在扩大内部信息交互的同时保持训练稳定与效率，属于架构与可扩展性方向的探索。

推荐指数：

DeepSeek 范式总结（含 GRPO/MLA/MoE/MTP 等）#

Arxiv ID 2507.09955

幻觉翻译 2507.09955

系统回顾 DeepSeek 路线中的关键算法与范式变化，覆盖注意力结构、稀疏/专家、训练目标与强化学习方法等多个层面。

推荐指数：