

方法分类总览#
| 大类 | 子类 | 代表论文 |
|---|---|---|
| Two-stage | R-CNN 系谱 | R-CNN(CVPR 2014)、SPPnet(ECCV 2014)、Fast R-CNN(ICCV 2015)、Faster R-CNN(NeurIPS 2015)、FPN(CVPR 2017)、Mask R-CNN(ICCV 2017) |
| One-stage | YOLO | YOLOv1(CVPR 2016)、YOLOv3(arXiv 2018)、YOLOX(arXiv 2021)、YOLOv5(Ultralytics)、YOLOv8(Ultralytics)、YOLO11(Ultralytics)、YOLOv12(arXiv 2025)、YOLO26(Ultralytics) |
| One-stage | Dense / Anchor(-free) | SSD(ECCV 2016)、RetinaNet / Focal Loss(ICCV 2017)、FCOS(ICCV 2019)、CenterNet(CVPR 2019)、ATSS(CVPR 2020)、GFL(CVPR 2021) |
| Transformer | ViT 预备工作 | ViT: An Image is Worth 16x16 Words(ICLR 2021) |
| Transformer | DETR 基线与改进 | DETR(ECCV 2020)、Conditional DETR(ICCV 2021)、Dynamic DETR(ICCV 2021)、Deformable DETR(ICLR 2021)、DAB-DETR(ICLR 2022)、DN-DETR(CVPR 2022)、DINO(ICLR 2023)、DQ-DETR(ECCV 2024)、DEIM(CVPR 2025)、D-FINE(ICLR 2025) |
| Transformer | 实时 DETR | RT-DETR(CVPR 2024)、RT-DETRv2(arXiv 2024)、RT-DETRv3(WACV 2025) |
Fast R-CNN 系列(Two-stage)#
R-CNN#
Two-stage 体系的起点:通过候选区域(proposal)+ CNN 特征 + 分类/回归完成检测,奠定“proposal→分类/回归”的核心范式。
SPPnet#
引入空间金字塔池化,使网络可处理任意尺寸输入;在检测中实现“整图卷积一次 + ROI 上池化”,为后续共享特征与 RoI Pooling 的效率思路铺垫。
Fast R-CNN#
将候选区域共享卷积特征并引入 RoI Pooling,把特征提取与分类/回归统一到同一网络中,显著提升训练与推理效率。
Faster R-CNN#
FPN#
Mask R-CNN#
在 Two-stage 框架中加入 RoIAlign 与 mask 分支,实现检测与实例分割的统一,并提供了非常稳健的工程化基座。
One-stage 经典 Dense/Anchor(-free) 路线#
SSD#
RetinaNet / Focal Loss#
提出 Focal Loss 解决 one-stage 正负样本极度不均衡问题,使 one-stage 在精度上显著提升并成为主流路线之一。
FCOS#
代表性的 anchor-free one-stage:以逐像素预测方式完成检测,减少 anchor 设计依赖,推动 anchor-free 成为重要主流方向。
CenterNet#
ATSS#
提出自适应样本选择/分配策略,减少手工阈值与启发式设计,对 dense detector 的训练稳定性与效果有明显帮助。
GFL#
通过分布式回归与质量建模统一分类与定位质量估计,是 dense detector 在训练目标与打分机制上的代表性改进。
YOLO 系列(One-stage)#
YOLOv1#
YOLOv3#
YOLOX#
采用 anchor-free 与解耦头等设计增强训练稳定性与上限,进一步提升实时检测效果,是 YOLO 工程化路线的重要代表。
YOLOv5(Ultralytics)#
YOLOv8(Ultralytics)#
YOLO11(Ultralytics)#
YOLOv12#
提出 attention-centric 的实时 YOLO 框架,尝试在保持速度竞争力的同时引入注意力带来的性能收益,代表“YOLO + Attention”方向探索。
YOLO26(Ultralytics)#
Transformer 系列#
预备工作:ViT#
将图像切分为 patch 并用 Transformer 建模,虽主要是分类范式,但为后续视觉 Transformer backbone 与 DETR 检测路线奠定基础。
DETR 基线与改进#
DETR#
Conditional DETR#
通过引入条件注意力与更强的位置先验,加速训练收敛,是 DETR 从“收敛慢”走向“可训练”的关键节点之一。
Dynamic DETR#
在编码器/解码器中引入动态注意力机制,改善收敛速度与小目标等难点,提升端到端检测的实用性。
Deformable DETR#
DAB-DETR#
将 queries 与动态 anchor boxes 结合,改进 query 表达与定位行为,在统一“query/anchor”视角下提升训练与检测效果。
DN-DETR#
通过引入 query denoising 训练策略显著加速 DETR 收敛,并提升端到端检测性能,成为常用训练技巧之一。
DINO#
在 denoising、query 选择与迭代框预测等方面系统增强,形成强基线,很多后续 DETR 改进工作会默认与其对齐对比。
DQ-DETR#
DEIM#
D-FINE#
实时 DETR 分支#
RT-DETR(DETRs Beat YOLOs on Real-time Object Detection)#
提出高效混合编码器与查询策略,使端到端 DETR 在实时检测场景下具备很强竞争力,并强调端到端带来的部署与推理优势。