目标检测算法YOLO-V3结构详解

❝
上期咱们一块儿学了YOLO-V2的算法结构以及跟YOLO-V1比起来有哪些优缺点，以下：
目标检测算法YOLO-V2详解
今天咱们看下在YOLO-V2版本上改进的YOLO-V3算法，到底作了哪些优化？web
❞

今天咱们主要从如下几个方面来学习YOLO-V3对YOLO-V2作了哪些改进。算法

Darknet-53结构
YOLO-V3结构
先验框设置
损失函数
模型性能

YOLO-V3模型框架

YOLO-V3模型框架，咱们主要从它的基础网络Darknet-53以及YOLO-V3的结构方面学习，首先看下Darknet-53结构。微信

Darknet-53结构

Darknet-53是专门为YOLO-V3设计的一个深度学习框架，有着很是好的图像识别的效果，以下图：网络

整个网络主要包括5组残差块，以下：框架

以 256x256输入为例，首先通过一个 3x3x32的卷积层输出为 256x256x32;
接着通过一个 3x3x64 stride=2的卷积层输出为 128x128x64;
接着通过一个残差块(前面学习残差网络的时候学过)，输出为 128x128x64；
再通过一个 3x3x128 stride=2的卷积层输出为 64x64x128;
通过 2个残差块后输出为 64x64x128;
接着通过一个 3x3x256 stride=2的卷积层输出为 32x32x256;
接着通过 8个残差块，输出为 32x32x256；
再通过一个 3x3x512 stride=2的卷积层输出为 16x16x512;
接着通过 8个残差块后输出为 16x16x512;
接着通过一个 3x3x1024 stride=2的卷积层输出为 8x8x1024;
接着通过 4个残差块后输出为 8x8x1024;
最后通过池化全链接层以及 softmax输出.

这就是Darknet-53网络的具体框架，接下来咱们看下YOLO-V3算法是怎么嫁接上去的。编辑器

YOLO-V3结构

YOLO-V3借鉴了前面学的SSD算法的思想，采用从不一样尺度特征图上下手的检测方式，以下：ide

咱们看下这个残差块，如上图右上小块，简单的说就是一组特征图与它通过两个卷积层后的特征图相加。函数

YOLO-V3分别从Darknet-53框架的第7步，第9步和第11步的特征图下手进行多尺度检测。首先，一块儿从Darknet-53最后输出的8x8x1024的特征图看如何检测的。这里将8x8x1024的特征图通过5个卷积层进行二次提取特征后拿去检测目标。然后再将提取后的特征图上采样与第9步的特征图合并通过5个卷积层进行二次提取特征后拿去检测目标。再将第9步的二次提取特征图上采样与第7步的特征图合并进行二次特征提取检测目标。性能

YOLO-V3通常使用416x416大小的图片做为输入，根据上面结构图，最后获得的特征图为13x13，Scale2的特征图为26x26，Scale3的特征图为52x52.
YOLO-V3使用的是COCO数据集训练，COCO数据集目标检测有80个类别，而YOLO-V3中每一个cell有3个box，每一个box还有(x,y,w,h,confidence)五个基本参数，也就是说一个cell对应的输出维度为3x(5+80)=255(这里不明白为何这样计算的请参考YOLO-V2算法).
因此YOLO-V3有3个不一样特征尺度的输出，分别为13x13x255,26x26x255和52x52x255的检测结果。对于416x416的输入图片，YOLO-V2中的bounding boxes有13x13x5=845个，而YOLO-V3则有(13x13+26x26+52x52)x3=10467个.学习

模型的训练及性能

明白了YOLO-V3算法的结构，咱们一块儿看下训练方面的东西，首先先验框该怎么设？

先验框设置

前面学的YOLO-V2算法已经开始采用K-means聚类获得先验框的尺寸，YOLO-V3延续了这种方法，为每种下采样尺度设定3中先验框，总共聚类出9中尺寸的先验框。在COCO数据集上，这9个先验框是(10x13),(16x30),(33x23),(30x61),(62x45),(59x119),(116x90),(156x198),(373x326).
分配上，在最小的13x13特征图上(有最大的感觉野)应用较大的先验框(116x90),(156x198),(373x326)适合检测较大的对象。
中等的26x26特征图上(中等感觉野)应用中等大小的先验框(30x61),(62x45),(59x119)，适合检测中等大小的对象。
较大的52x52特征图上(较小的感觉野)应用较小的先验框(10x13),(16x30),(33x23)，适合检测较小的对象。以下表：

损失函数

YOLO-V3对类别预测的代价函数进行了修改，而且没有用softmax。那为何没有用softmax呢？在原来的分类网络中softmax层都是假设一张图片或者一个object只属于一个类别，可是在一些复杂场景下，一个object可能属于多个类，好比，咱们的类别中有woman和person这两类，那么若是一张图像中有一个woman，那么咱们检测的结果中类别标签就要同时有woman和person这两类，这就是多标签分类。也就是一个object属于多个类别。

因此在YOLO-V3中，用了逻辑回归层来对每一个类别作二分类。逻辑回归层主要用到sigmoid函数，该函数能够将输入约束在0~1的范围内，所以当一张图像通过特征提取后的某一类输出通过sigmoid函数约束后若是大于0.5，就表示属于该类，这样一个框就能够预测多个类别，代价函数用的是sigmoid的交叉熵。

模型性能

YOLO-V3在速度和准确率上都是很不错的，从下图中，咱们能够看到在跟其余算法进行对比的图中，YOLO-V3在inference time上处于领先地位，其中YOLOV3-320因为输入图片为320x320，因此inference time最小为22ms，而YOLOV3-608因为输入图片较大，inference time为51ms，也是领先于其余算法的。虽然mAP最高的算法为FPN-FRCN,可是运行时间却要172ms。而YOLOV3-608的mAP也达到了57.9。

从下面各算法在COCO数据集上的性能图中，咱们也能够清楚的看到YOLO-V3算法的强大性能。

好了，至此，咱们今天从Darknet-53结构，YOLO-V3结构，先验框设置，损失函数，模型性能的角度对YOLO-V3作了详细的介绍，以及跟YOLO-V2对比作了哪些改进，但愿对你们有些帮助。下期，咱们将一块儿学习目标检测算法YOLO-V4。

本文分享自微信公众号 - 智能算法（AI_Algorithm）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。