20Bytes Log
经典基础网络回顾封面Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

脉络总览(按演进顺序)#

阶段主题代表论文
基础架构Transformer 统一序列建模Attention Is All You Need(NeurIPS 2017)
预训练范式编码器与通用表征BERT(NAACL 2019)
LLM 爆发少样本能力与规模效应GPT-3 / Language Models are Few-Shot Learners(NeurIPS 2020)
规模方法论Scaling Laws 与算力分配Scaling Laws for Neural Language Models(2020)
规模方法论计算最优训练(Chinchilla)Training Compute-Optimal Large Language Models(NeurIPS 2022)
外部知识RAG 检索增强生成Retrieval-Augmented Generation(NeurIPS 2020)
稀疏计算MoE 扩展到万亿参数Switch Transformers(JMLR 2022)
对齐与指令跟随RLHF 训练指令模型Training language models to follow instructions with human feedback(NeurIPS 2022)
推理能力CoT 提示引出推理Chain-of-Thought Prompting(2022)
开源高效公开数据训练强 LLMLLaMA(2023)

基础架构#

Transformer#

Arxiv ID 1706.03762
幻觉翻译 1706.03762

提出纯自注意力的 Transformer 架构,显著提升并行效率与建模能力,成为后续 LLM 与多模态模型的统一底座。

推荐指数:

预训练范式#

BERT#

Arxiv ID 1810.04805
幻觉翻译 1810.04805

通过 MLM 等预训练目标学习双向上下文表征,推动“预训练 + 微调”成为 NLP 主流范式,并影响了后续很多 encoder/检索相关工作。

推荐指数:

LLM 爆发#

GPT-3#

Arxiv ID 2005.14165
幻觉翻译 2005.14165

展示规模化自回归语言模型的强少样本能力,显著降低任务特定微调依赖,推动“用提示完成任务”的交互范式普及。

推荐指数:

规模方法论(Scaling)#

Scaling Laws#

Arxiv ID 2001.08361
幻觉翻译 2001.08361

系统总结模型规模、数据规模与训练算力之间的幂律关系,为训练预算分配与趋势外推提供可操作的方法论。

推荐指数:

Chinchilla / 计算最优训练#

Arxiv ID 2203.15556
幻觉翻译 2203.15556

指出很多大模型训练“数据不够、模型过大”,并给出计算最优的规模-数据配比规律,直接影响后续大模型训练配方。

推荐指数:

外部知识与记忆#

RAG#

Arxiv ID 2005.11401
幻觉翻译 2005.11401

把可微检索引入生成模型,在知识密集任务上显著提升事实性与可更新性,并为“检索增强 + 生成”系统化应用奠基。

推荐指数:

稀疏计算(MoE)#

Switch Transformers#

Arxiv ID 2101.03961
幻觉翻译 2101.03961

通过更简单高效的路由与训练技巧,让 MoE 更稳定可扩展,在计算成本基本不变的情况下把参数规模推向更大。

推荐指数:

对齐与指令跟随(Alignment)#

InstructGPT / RLHF#

Arxiv ID 2203.02155
幻觉翻译 2203.02155

提出一套可落地的“监督示例 + 偏好比较 + 强化学习”流程,让模型更符合人类指令与偏好,奠定现代对齐训练的主流实践。

推荐指数:

推理能力(Reasoning)#

Chain-of-Thought#

Arxiv ID 2201.11903
幻觉翻译 2201.11903

证明给出中间推理步骤示例能显著提升复杂推理任务表现,推动 CoT、Self-Consistency 等提示与推理范式的广泛应用。

推荐指数:

开源高效(Open LLM)#

LLaMA#

Arxiv ID 2302.13971
幻觉翻译 2302.13971

展示用公开数据也能训练出强竞争力的基础模型,并推动开源 LLM 生态快速发展与复现研究繁荣。

推荐指数:

公司 / 团队谱系(按机构分类)#

DeepSeek(算法 + 训练范式 + 模型演进)#

方向关键词代表论文
强化学习推理GRPODeepSeekMath(2024)
推理能力RL 驱动推理DeepSeek-R1(2025)
推理/泛化增强Training-Free GRPOTraining-Free GRPO(2025)
模型迭代高效开放模型DeepSeek-V3.2(2025)
架构与扩展mHCmHC: Manifold-Constrained Hyper-Connections(2025/2026)
方法总结DeepSeek 范式DeepSeek: Paradigm Shifts and Technical Evolution…(2025)

DeepSeekMath(GRPO)#

Arxiv ID 2402.03300
幻觉翻译 2402.03300

提出 GRPO 等训练方法来增强数学推理能力,并强调在资源与内存成本可控的前提下提升强化学习训练效率。

推荐指数:

DeepSeek-R1#

Arxiv ID 2501.12948
幻觉翻译 2501.12948

围绕推理能力进行强化学习驱动的训练设计,强调通过奖励信号与训练策略提升多步推理与解题能力。

推荐指数:

Training-Free GRPO#

Arxiv ID 2510.08191
幻觉翻译 2510.08191

探索更轻量的 GRPO 使用方式,在很少样本与低成本条件下提升模型的域外泛化与任务表现。

推荐指数:

DeepSeek-V3.2#

Arxiv ID 2512.02556
幻觉翻译 2512.02556

强调在计算效率与推理/代理能力之间取得更好的平衡,体现开源模型在工程与能力上的持续迭代路线。

推荐指数:

mHC#

Arxiv ID 2512.24880
幻觉翻译 2512.24880

提出流形约束的超连接机制,目标是在扩大内部信息交互的同时保持训练稳定与效率,属于架构与可扩展性方向的探索。

推荐指数:

DeepSeek 范式总结(含 GRPO/MLA/MoE/MTP 等)#

Arxiv ID 2507.09955
幻觉翻译 2507.09955

系统回顾 DeepSeek 路线中的关键算法与范式变化,覆盖注意力结构、稀疏/专家、训练目标与强化学习方法等多个层面。

推荐指数:
LLM 经典脉络回顾
https://20bytes.github.io/blog/%E5%A4%A7%E6%A8%A1%E5%9E%8B
Author 昙柏
Published at February 22, 2026