经典基础网络回顾 • 20Bytes Log

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

论文速览#

论文	年份	方向
LeNet-5	1998	CNN 早期代表：卷积+池化+端到端训练（IEEE 1998）
AlexNet	2012	ImageNet 突破：GPU+ReLU/Dropout 等（NeurIPS 2012）
VGG	2014	3×3 小卷积核深层堆叠，迁移友好（ICLR 2015）
Inception-v1 (GoogLeNet)	2014	多尺度并行卷积，控开销（CVPR 2015）
ResNet	2015	残差连接，深层可训练（CVPR 2016）
DenseNet	2016/2017	稠密连接，特征复用强、参数高效（CVPR 2017）
Transformer	2017	自注意力范式：从 NLP 扩展到视觉（NeurIPS 2017）

Arxiv ID lecun-01a.pdf

CNN 的早期经典：通过卷积/池化与端到端训练，在手写数字与文档识别任务上验证“局部感受野+参数共享”的有效性，并奠定后续视觉网络的基本模块。

推荐指数：

Arxiv ID c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

ImageNet 时代里程碑（NeurIPS 2012）：更深更大的 CNN 结合 GPU 训练、ReLU、Dropout、数据增强等方法与工程创新，大幅刷新分类性能并引爆深度学习在 CV 的应用浪潮。

推荐指数：

Arxiv ID 1409.1556

幻觉翻译 1409.1556

用统一的 3×3 卷积核进行深层堆叠，以“更深但更规整”的方式提升表达能力；结构简洁、可复用性强，成为迁移学习与特征提取的长期基线。

推荐指数：

Arxiv ID 1409.4842

幻觉翻译 1409.4842

提出 Inception 模块：同一层内并行使用不同尺度卷积与池化捕获多尺度信息，并用 1×1 卷积降维控制计算量，实现更好的精度-开销平衡。

推荐指数：

Arxiv ID 1512.03385

幻觉翻译 1512.03385

引入残差学习（skip connection），显著缓解深层网络优化困难与性能退化问题，使“更深”真正带来收益；此后成为几乎所有视觉 backbone 与检测/分割框架的默认基础组件。

推荐指数：

Arxiv ID 1608.06993

幻觉翻译 1608.06993

层间密集连接让每层直接访问前面所有层特征，强化特征复用与梯度传播；在较少参数下获得很强效果，是“连接方式创新”路线的重要代表。

推荐指数：

Arxiv ID 1706.03762

幻觉翻译 1706.03762

提出纯自注意力的序列建模范式：具备更强的全局依赖建模能力；虽最初用于 NLP，但其思想后来迁移到视觉（如 ViT、DETR 等），成为大模型时代通用 encoder/backbone 的关键路线。

推荐指数：