20Bytes Log
目标检测发展进程封面Blur image
评分准则
平平无奇的论文
正常的论文
广受认可或者让我眼前一亮的论文
奠基性的论文或者我非常喜欢的论文
毋庸置疑的最棒的论文

方法分类总览#

大类子类代表论文
Two-stageR-CNN 系谱R-CNN(CVPR 2014)、SPPnet(ECCV 2014)、Fast R-CNN(ICCV 2015)、Faster R-CNN(NeurIPS 2015)、FPN(CVPR 2017)、Mask R-CNN(ICCV 2017)
One-stageYOLOYOLOv1(CVPR 2016)、YOLOv3(arXiv 2018)、YOLOX(arXiv 2021)、YOLOv5(Ultralytics)、YOLOv8(Ultralytics)、YOLO11(Ultralytics)、YOLOv12(arXiv 2025)、YOLO26(Ultralytics)
One-stageDense / Anchor(-free)SSD(ECCV 2016)、RetinaNet / Focal Loss(ICCV 2017)、FCOS(ICCV 2019)、CenterNet(CVPR 2019)、ATSS(CVPR 2020)、GFL(CVPR 2021)
TransformerViT 预备工作ViT: An Image is Worth 16x16 Words(ICLR 2021)
TransformerDETR 基线与改进DETR(ECCV 2020)、Conditional DETR(ICCV 2021)、Dynamic DETR(ICCV 2021)、Deformable DETR(ICLR 2021)、DAB-DETR(ICLR 2022)、DN-DETR(CVPR 2022)、DINO(ICLR 2023)、DQ-DETR(ECCV 2024)、DEIM(CVPR 2025)、D-FINE(ICLR 2025)
Transformer实时 DETRRT-DETR(CVPR 2024)、RT-DETRv2(arXiv 2024)、RT-DETRv3(WACV 2025)

Fast R-CNN 系列(Two-stage)#

R-CNN#

Two-stage 体系的起点:通过候选区域(proposal)+ CNN 特征 + 分类/回归完成检测,奠定“proposal→分类/回归”的核心范式。

推荐指数:

SPPnet#

Arxiv ID 1406.4729
幻觉翻译 1406.4729

引入空间金字塔池化,使网络可处理任意尺寸输入;在检测中实现“整图卷积一次 + ROI 上池化”,为后续共享特征与 RoI Pooling 的效率思路铺垫。

推荐指数:

Fast R-CNN#

Arxiv ID 1504.08083
幻觉翻译 1504.08083

将候选区域共享卷积特征并引入 RoI Pooling,把特征提取与分类/回归统一到同一网络中,显著提升训练与推理效率。

推荐指数:

Faster R-CNN#

Arxiv ID 1506.01497
幻觉翻译 1506.01497

引入 RPN 实现候选框生成与检测端到端联合训练,形成 Two-stage 的标准范式,并成为长期通用强基线。

推荐指数:

FPN#

Arxiv ID 1612.03144
幻觉翻译 1612.03144

通过自顶向下路径与横向连接构建多尺度特征金字塔,让检测器天然具备多尺度表征能力,成为检测/分割任务的标配组件之一。

推荐指数:

Mask R-CNN#

在 Two-stage 框架中加入 RoIAlign 与 mask 分支,实现检测与实例分割的统一,并提供了非常稳健的工程化基座。

推荐指数:

One-stage 经典 Dense/Anchor(-free) 路线#

SSD#

Arxiv ID 1512.02325
幻觉翻译 1512.02325

单阶段密集预测的经典代表,通过多层特征图进行多尺度预测,推动 one-stage 检测在速度与效果上走向实用。

推荐指数:

RetinaNet / Focal Loss#

提出 Focal Loss 解决 one-stage 正负样本极度不均衡问题,使 one-stage 在精度上显著提升并成为主流路线之一。

推荐指数:

FCOS#

代表性的 anchor-free one-stage:以逐像素预测方式完成检测,减少 anchor 设计依赖,推动 anchor-free 成为重要主流方向。

推荐指数:

CenterNet#

Arxiv ID 1904.07850
幻觉翻译 1904.07850

将目标检测转化为中心点关键点检测 + 尺寸回归的范式,代表 center-based 检测路线。

推荐指数:

ATSS#

Arxiv ID 1912.02424
幻觉翻译 1912.02424

提出自适应样本选择/分配策略,减少手工阈值与启发式设计,对 dense detector 的训练稳定性与效果有明显帮助。

推荐指数:

GFL#

Arxiv ID 2006.04388
幻觉翻译 2006.04388

通过分布式回归与质量建模统一分类与定位质量估计,是 dense detector 在训练目标与打分机制上的代表性改进。

推荐指数:

YOLO 系列(One-stage)#

YOLOv1#

Arxiv ID 1506.02640
幻觉翻译 1506.02640

把检测看作单阶段回归问题,直接从整图预测框与类别,突出实时性并推动 One-stage 路线快速发展。

推荐指数:

YOLOv3#

Arxiv ID 1804.02767
幻觉翻译 1804.02767

通过多尺度预测与更强的残差骨干提升性能,在速度与精度间取得很强平衡,工业界影响极大。

推荐指数:

YOLOX#

Arxiv ID 2107.08430
幻觉翻译 2107.08430

采用 anchor-free 与解耦头等设计增强训练稳定性与上限,进一步提升实时检测效果,是 YOLO 工程化路线的重要代表。

推荐指数:

YOLOv5(Ultralytics)#

Arxiv ID

工程化与易用性极强的 YOLO 体系,生态成熟、训练与部署体验好;常用于工业部署与教学实践(以仓库/文档方式引用为主)。

推荐指数:

YOLOv8(Ultralytics)#

Arxiv ID

Ultralytics 主线版本之一,覆盖检测/分割/姿态等多任务,训练与部署管线完善,适合“能直接用”的工程导向回顾。

推荐指数:

YOLO11(Ultralytics)#

Arxiv ID

面向实时与多任务的迭代版本,官方给出完整训练与部署流程,强调速度、精度与落地友好性。

推荐指数:

YOLOv12#

Arxiv ID 2502.12524
幻觉翻译 2502.12524

提出 attention-centric 的实时 YOLO 框架,尝试在保持速度竞争力的同时引入注意力带来的性能收益,代表“YOLO + Attention”方向探索。

推荐指数:

YOLO26(Ultralytics)#

Arxiv ID

官方定位为更快、更轻、更易部署的新版本,强调端到端与工程落地能力,适合作为最新工业路线补充。

推荐指数:

Transformer 系列#

预备工作:ViT#

Arxiv ID 2010.11929
幻觉翻译 2010.11929

将图像切分为 patch 并用 Transformer 建模,虽主要是分类范式,但为后续视觉 Transformer backbone 与 DETR 检测路线奠定基础。

推荐指数:

DETR 基线与改进#

DETR#

Arxiv ID 2005.12872
幻觉翻译 2005.12872

首次将检测建模为集合预测并用匈牙利匹配进行一对一分配,去除 anchor 与 NMS,开启端到端 DETR 路线。

推荐指数:

Conditional DETR#

通过引入条件注意力与更强的位置先验,加速训练收敛,是 DETR 从“收敛慢”走向“可训练”的关键节点之一。

推荐指数:

Dynamic DETR#

在编码器/解码器中引入动态注意力机制,改善收敛速度与小目标等难点,提升端到端检测的实用性。

推荐指数:

Deformable DETR#

Arxiv ID 2010.04159
幻觉翻译 2010.04159

用可变形注意力在少量关键采样点聚合多尺度特征,大幅加速收敛并提升精度,成为 DETR 改进路线的里程碑。

推荐指数:

DAB-DETR#

Arxiv ID 2201.12329
幻觉翻译 2201.12329

将 queries 与动态 anchor boxes 结合,改进 query 表达与定位行为,在统一“query/anchor”视角下提升训练与检测效果。

推荐指数:

DN-DETR#

通过引入 query denoising 训练策略显著加速 DETR 收敛,并提升端到端检测性能,成为常用训练技巧之一。

推荐指数:

DINO#

Arxiv ID 2203.03605
幻觉翻译 2203.03605

在 denoising、query 选择与迭代框预测等方面系统增强,形成强基线,很多后续 DETR 改进工作会默认与其对齐对比。

推荐指数:

DQ-DETR#

Arxiv ID 2404.03507
幻觉翻译 2404.03507

通过动态查询机制更好地适配目标密度与尺度分布,增强 tiny object 场景下的检测能力。

推荐指数:

DEIM#

Arxiv ID 2412.04234
幻觉翻译 2412.04234

围绕匹配与监督稠密性进行改进,提升训练效率与收敛速度,针对端到端检测训练难点做优化。

推荐指数:

D-FINE#

Arxiv ID 2410.13842
幻觉翻译 2410.13842

将框回归视为细粒度分布细化任务,提升定位质量与训练稳定性,可作为实时端到端检测的强力增强模块。

推荐指数:

实时 DETR 分支#

RT-DETR(DETRs Beat YOLOs on Real-time Object Detection)#

Arxiv ID 2304.08069
幻觉翻译 2304.08069

提出高效混合编码器与查询策略,使端到端 DETR 在实时检测场景下具备很强竞争力,并强调端到端带来的部署与推理优势。

推荐指数:

RT-DETRv2#

Arxiv ID 2407.17140
幻觉翻译 2407.17140

在 RT-DETR 基线之上引入多种训练与实现层面的增强策略,进一步提升精度与工程部署实用性。

推荐指数:

RT-DETRv3#

Arxiv ID 2409.08475
幻觉翻译 2409.08475

引入层次化稠密正样本监督等训练策略,继续优化实时端到端检测效果,提升训练稳定性与性能上限。

推荐指数:
目标检测发展进程
https://20bytes.github.io/blog/%E7%9B%AE%E6%A0%87%E6%A3%80%E6%B5%8B
Author 昙柏
Published at February 21, 2026