paper 111：图像分类物体目标检测 from RCNN to YOLO-白红宇

paper 111：图像分类物体目标检测 from RCNN to YOLO

阅读量：6590 次

发布时间：2019-06-24

本文共 2295 字，大约阅读时间需要 7 分钟。

参考列表

Selective Search for Object Recognition

Ross B. Girshick(RCNN系列开创者)

RCNN

Fast RCNN

Faster RCNN

You Only Look Once

RCNN

最早的物体识别，是通过窗口扫描的方式进行，并且需要对图片进行几个级别的缩放来重复进行。

这种方式非常暴力，计算量大。

RCNN主要解决的是去掉窗口扫描，用聚类方式，对图像进行分割分组，得到多个侯选框的层次组。

分割分组方法有很多，RCNN用到的是Selective Search。

以下就是RCNN的结构。

从原始图片，通过Selective Search提取出区域候选框，有2000个左右

把所有侯选框缩放成固定大小

然后通过CNN网络，提取特征

再添加两个全链接层，然后再用SVM分类，回归来微调选框位置与大小

Fast RCNN

RCNN有两千个左右的候选框，都要进行CNN操作。但候选框有大量重叠，造成重复计算。

Fast RCNN就是解决这个问题的。

利用CNN(卷积神经网络)，得到整个原始图片的特征层

在原始图片上通过Selective Search等方法，提取出域候选框

把候选框投影到最后的特征层，并进行Max-Pooling采样，得到固定大小的特征矩形

然后再通过两个全连接层，分别用softmax分类，regressor进行选框位置与大小微调

Faster RCNN

在上面的 RCNN 与 Fast RCNN中，相对于在GPU上计算的CNN，在CPU上运行的提取候选框效率低下，一张图片大概需要2秒。

Faster RCNN则直接利用CNN来计算候选框，方式如下:

原始图片经过CNN，得到最后的卷积特征

利用

对上图中的k个anchor box进行是否是物体判断预测，和矩形框位置与大小微调

选出物体框后，再利用同Fast RCNN同样的方式，对物体类别进行判断

选框与分类使用同样的CNN网络

一张

anchor box的设置应比较好的覆盖从大到小的区域，如下图:

注

这里有一点疑惑，

You Only Look Once

Faster RCNN需要对20k个anchor box进行判断是否是物体，然后再进行物体识别，分成了两步。

YOLO(You Only Look Once)则把物体框的选择与识别进行了结合，一步输出，即变成”You Only Look Once”。

所以识别速度非常快，达到每秒45帧，而在快速版YOLO(Fast YOLO，卷积层更少)中，可以达到每秒155帧。

网络的整体结构如下图:

把原始图片缩放成

运行单个卷积网络

得到物体的位置与类别

模型如下:

把缩放成统一大小的图片分割成

每一个单元格负责输出B个矩形框，每一个框带四个位置信息(x, y, w, h)，与一个该框是物体的概率，用

每一个单元格再负责输出C个类别的概率，用

最终输出层应有