目标检测发展进程 • 20Bytes Log

评分准则

平平无奇的论文

正常的论文

广受认可或者让我眼前一亮的论文

奠基性的论文或者我非常喜欢的论文

毋庸置疑的最棒的论文

方法分类总览#

大类	子类	代表论文
Two-stage	R-CNN 系谱	R-CNN（CVPR 2014）、SPPnet（ECCV 2014）、Fast R-CNN（ICCV 2015）、Faster R-CNN（NeurIPS 2015）、FPN（CVPR 2017）、Mask R-CNN（ICCV 2017）
One-stage	YOLO	YOLOv1（CVPR 2016）、YOLOv3（arXiv 2018）、YOLOX（arXiv 2021）、YOLOv5（Ultralytics）、YOLOv8（Ultralytics）、YOLO11（Ultralytics）、YOLOv12（arXiv 2025）、YOLO26（Ultralytics）
One-stage	Dense / Anchor(-free)	SSD（ECCV 2016）、RetinaNet / Focal Loss（ICCV 2017）、FCOS（ICCV 2019）、CenterNet（CVPR 2019）、ATSS（CVPR 2020）、GFL（CVPR 2021）
Transformer	ViT 预备工作	ViT: An Image is Worth 16x16 Words（ICLR 2021）
Transformer	DETR 基线与改进	DETR（ECCV 2020）、Conditional DETR（ICCV 2021）、Dynamic DETR（ICCV 2021）、Deformable DETR（ICLR 2021）、DAB-DETR（ICLR 2022）、DN-DETR（CVPR 2022）、DINO（ICLR 2023）、DQ-DETR（ECCV 2024）、DEIM（CVPR 2025）、D-FINE（ICLR 2025）
Transformer	实时 DETR	RT-DETR（CVPR 2024）、RT-DETRv2（arXiv 2024）、RT-DETRv3（WACV 2025）

Fast R-CNN 系列（Two-stage）#

R-CNN#

Arxiv ID Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

Two-stage 体系的起点：通过候选区域（proposal）+ CNN 特征 + 分类/回归完成检测，奠定“proposal→分类/回归”的核心范式。

推荐指数：

SPPnet#

Arxiv ID 1406.4729

幻觉翻译 1406.4729

引入空间金字塔池化，使网络可处理任意尺寸输入；在检测中实现“整图卷积一次 + ROI 上池化”，为后续共享特征与 RoI Pooling 的效率思路铺垫。

推荐指数：

Fast R-CNN#

Arxiv ID 1504.08083

幻觉翻译 1504.08083

将候选区域共享卷积特征并引入 RoI Pooling，把特征提取与分类/回归统一到同一网络中，显著提升训练与推理效率。

推荐指数：

Faster R-CNN#

Arxiv ID 1506.01497

幻觉翻译 1506.01497

引入 RPN 实现候选框生成与检测端到端联合训练，形成 Two-stage 的标准范式，并成为长期通用强基线。

推荐指数：

FPN#

Arxiv ID 1612.03144

幻觉翻译 1612.03144

通过自顶向下路径与横向连接构建多尺度特征金字塔，让检测器天然具备多尺度表征能力，成为检测/分割任务的标配组件之一。

推荐指数：

Mask R-CNN#

Arxiv ID He_Mask_R-CNN_ICCV_2017_paper.pdf

在 Two-stage 框架中加入 RoIAlign 与 mask 分支，实现检测与实例分割的统一，并提供了非常稳健的工程化基座。

推荐指数：

One-stage 经典 Dense/Anchor(-free) 路线#

SSD#

Arxiv ID 1512.02325

幻觉翻译 1512.02325

单阶段密集预测的经典代表，通过多层特征图进行多尺度预测，推动 one-stage 检测在速度与效果上走向实用。

推荐指数：

RetinaNet / Focal Loss#

Arxiv ID Lin_Focal_Loss_for_ICCV_2017_paper.pdf

提出 Focal Loss 解决 one-stage 正负样本极度不均衡问题，使 one-stage 在精度上显著提升并成为主流路线之一。

推荐指数：

FCOS#

Arxiv ID Tian_FCOS_Fully_Convolutional_One-Stage_Object_Detection_ICCV_2019_paper.pdf

代表性的 anchor-free one-stage：以逐像素预测方式完成检测，减少 anchor 设计依赖，推动 anchor-free 成为重要主流方向。

推荐指数：

CenterNet#

Arxiv ID 1904.07850

幻觉翻译 1904.07850

将目标检测转化为中心点关键点检测 + 尺寸回归的范式，代表 center-based 检测路线。

推荐指数：

ATSS#

Arxiv ID 1912.02424

幻觉翻译 1912.02424

提出自适应样本选择/分配策略，减少手工阈值与启发式设计，对 dense detector 的训练稳定性与效果有明显帮助。

推荐指数：

GFL#

Arxiv ID 2006.04388

幻觉翻译 2006.04388

通过分布式回归与质量建模统一分类与定位质量估计，是 dense detector 在训练目标与打分机制上的代表性改进。

推荐指数：

YOLO 系列（One-stage）#

YOLOv1#

Arxiv ID 1506.02640

幻觉翻译 1506.02640

把检测看作单阶段回归问题，直接从整图预测框与类别，突出实时性并推动 One-stage 路线快速发展。

推荐指数：

YOLOv3#

Arxiv ID 1804.02767

幻觉翻译 1804.02767

通过多尺度预测与更强的残差骨干提升性能，在速度与精度间取得很强平衡，工业界影响极大。

推荐指数：

YOLOX#

Arxiv ID 2107.08430

幻觉翻译 2107.08430

采用 anchor-free 与解耦头等设计增强训练稳定性与上限，进一步提升实时检测效果，是 YOLO 工程化路线的重要代表。

推荐指数：

YOLOv5（Ultralytics）#

Arxiv ID

工程化与易用性极强的 YOLO 体系，生态成熟、训练与部署体验好；常用于工业部署与教学实践（以仓库/文档方式引用为主）。

推荐指数：

YOLOv8（Ultralytics）#

Arxiv ID

Ultralytics 主线版本之一，覆盖检测/分割/姿态等多任务，训练与部署管线完善，适合“能直接用”的工程导向回顾。

推荐指数：

YOLO11（Ultralytics）#

Arxiv ID

面向实时与多任务的迭代版本，官方给出完整训练与部署流程，强调速度、精度与落地友好性。

推荐指数：

YOLOv12#

Arxiv ID 2502.12524

幻觉翻译 2502.12524

提出 attention-centric 的实时 YOLO 框架，尝试在保持速度竞争力的同时引入注意力带来的性能收益，代表“YOLO + Attention”方向探索。

推荐指数：

YOLO26（Ultralytics）#

Arxiv ID

官方定位为更快、更轻、更易部署的新版本，强调端到端与工程落地能力，适合作为最新工业路线补充。

推荐指数：

Transformer 系列#

预备工作：ViT#

Arxiv ID 2010.11929

幻觉翻译 2010.11929

将图像切分为 patch 并用 Transformer 建模，虽主要是分类范式，但为后续视觉 Transformer backbone 与 DETR 检测路线奠定基础。

推荐指数：

DETR 基线与改进#

DETR#

Arxiv ID 2005.12872

幻觉翻译 2005.12872

首次将检测建模为集合预测并用匈牙利匹配进行一对一分配，去除 anchor 与 NMS，开启端到端 DETR 路线。

推荐指数：

Conditional DETR#

Arxiv ID Meng_Conditional_DETR_for_Fast_Training_Convergence_ICCV_2021_paper.html

通过引入条件注意力与更强的位置先验，加速训练收敛，是 DETR 从“收敛慢”走向“可训练”的关键节点之一。

推荐指数：

Dynamic DETR#

Arxiv ID Dai_Dynamic_DETR_End-to-End_Object_Detection_With_Dynamic_Attention_ICCV_2021_paper.pdf

在编码器/解码器中引入动态注意力机制，改善收敛速度与小目标等难点，提升端到端检测的实用性。

推荐指数：

Deformable DETR#

Arxiv ID 2010.04159

幻觉翻译 2010.04159

用可变形注意力在少量关键采样点聚合多尺度特征，大幅加速收敛并提升精度，成为 DETR 改进路线的里程碑。

推荐指数：

DAB-DETR#

Arxiv ID 2201.12329

幻觉翻译 2201.12329

将 queries 与动态 anchor boxes 结合，改进 query 表达与定位行为，在统一“query/anchor”视角下提升训练与检测效果。

推荐指数：

DN-DETR#

Arxiv ID Li_DN-DETR_Accelerate_DETR_Training_by_Introducing_Query_DeNoising_CVPR_2022_paper.pdf

通过引入 query denoising 训练策略显著加速 DETR 收敛，并提升端到端检测性能，成为常用训练技巧之一。

推荐指数：

DINO#

Arxiv ID 2203.03605

幻觉翻译 2203.03605

在 denoising、query 选择与迭代框预测等方面系统增强，形成强基线，很多后续 DETR 改进工作会默认与其对齐对比。

推荐指数：

DQ-DETR#

Arxiv ID 2404.03507

幻觉翻译 2404.03507

通过动态查询机制更好地适配目标密度与尺度分布，增强 tiny object 场景下的检测能力。

推荐指数：

DEIM#

Arxiv ID 2412.04234

幻觉翻译 2412.04234

围绕匹配与监督稠密性进行改进，提升训练效率与收敛速度，针对端到端检测训练难点做优化。

推荐指数：

D-FINE#

Arxiv ID 2410.13842

幻觉翻译 2410.13842

将框回归视为细粒度分布细化任务，提升定位质量与训练稳定性，可作为实时端到端检测的强力增强模块。

推荐指数：

实时 DETR 分支#

RT-DETR（DETRs Beat YOLOs on Real-time Object Detection）#

Arxiv ID 2304.08069

幻觉翻译 2304.08069

提出高效混合编码器与查询策略，使端到端 DETR 在实时检测场景下具备很强竞争力，并强调端到端带来的部署与推理优势。

推荐指数：

RT-DETRv2#

Arxiv ID 2407.17140

幻觉翻译 2407.17140

在 RT-DETR 基线之上引入多种训练与实现层面的增强策略，进一步提升精度与工程部署实用性。

推荐指数：

RT-DETRv3#

Arxiv ID 2409.08475

幻觉翻译 2409.08475

引入层次化稠密正样本监督等训练策略，继续优化实时端到端检测效果，提升训练稳定性与性能上限。

推荐指数：