yolo3 入手必看[巨详细]

时间 2020-06-14

标签 yolo3 yolo 入手详细繁體版

原文原文链接

yolo训练总结

上一年总结的旧文章,也许对新接触yolo的有点帮助.git

数据生成

via网页标注的数据须要通过一系列转换,才能适配yolo的训练,主要步骤包括以下:github

根据标注json生成每一张图片的标注label: xxx.txt

xxx.txt格式(数值都是除以图片实际宽高保存的):
类名 box矩形中心x坐标 box矩形中心y坐标 box矩形宽 box矩形高
复制代码

同时会将图片压缩成1536,保存到image 文件夹中

最后会把train 以及 val 要训练的图片路径分别保存起来,以让模型读取.

分享: 多线程以及jupyter进度条的集合算法

yolo环境搭建

这一步没有耗费多少时间,根据官网一步一步走就没问题 darknet官网json

训练命令行:

进入darknet目录
运行命令: ./darknet detector train ../_question/question.data ../_question/question1280TR.cfg -i 1

-i 1 :指定gpu:1.[吐槽:为何是 i 的简写]bash

训练过程当中的遇到的问题

想要不出意外,不踩坑:多线程

数据集符合要求是一个方面
另一方面就是cfg的配置

训练过程当中的log数据解读:学习


Region 16 Avg IOU: -nan, Class: -nan, Obj: -nan, No Obj: 0.000000, .5R: -nan, .75R: -nan, count: 0ui
Region 23 Avg IOU: 0.860543, Class: 0.999887, Obj: 0.962618, No Obj: 0.000232, .5R: 1.000000, .75R: 0.950000, count: 20spa
11670(当前迭代batch次数): 0.225856(整体loss), 0.287980 avg(平均loss), 0.000100 rate(当前的学习率,在cfg中定义), 11.322880 seconds(当前batch耗费时间), 1867200 images(参与训练的图片总数).net

1. `Region 16, Region 23`:(存疑)

不一样尺度(16,23)卷积层上预测到的不一样大小的框的参数
16 卷积层为最大的预测尺度, 使用较大的 mask, 可是能够预测出较小的物体; 都nan,或为0,说明在 16 卷积层中什么物体都检测不出来.
23 卷积层为最小的预测尺度, 使用较小的 mask, 能够预测出较大的物体.

2. `Avg IOU: 0.860543`:

IOU- [标注的box面积] 和 [训练检测出的box面积] 重合率.
具体算法以下:

3. `Class: 0.999887`:

box分类的正确率

4. `Obj: 0.962618, No Obj: 0.000232`:

Obj: 越接近 1 越好
No Obj: 指望该值愈来愈小, 但不为零
具体什么含义仍是不太清楚

参考资料:

blog.csdn.net/gzj2013/art…

blog.csdn.net/fendoubasao…

blog.csdn.net/ll_master/a…

timebutt.github.io/static/unde…

问题记录

问题1 模型没法预测效果

现象:

检测模型效果时, kernel have died

解决:

backup路径写错由于是C写的,在notebook上没有输出具体的错误log,致使在这个问题上卡了比较久,最终在jupyter.log中定位到问题缘由.

问题2 训练一下子就中断

解决:

排查了很多时间,发现是xxx.data 中设置的backup 路径没有建立,致使backup保存失败,进而训练中断

问题3 没法进行训练

现象1:

训练没法开始. 也没有什么报错信息

解决:

训练类别增长后,须要更改4个参数

xxx.data 中 classes 须要改变
xxx.names 中须要添加对应类别名称
xxx.cfg 中 [yolo]层中的classes须要与类别对应
xxx.cfg 中 [yolo]层的上一层[convolutional]的filters须要更改:filters=(classes + 5)* mask的数量. 参考连接

现象2:

训练没法开始. 报错信息:

./darknet: error while loading shared libraries: libcudart.so.10.0: cannot open shared object file: No such file or directory

解决:

由于cuda 路径 darknet 没有检测到,输入临时路径命令:

export LD_LIBRARY_PATH=/usr/local/cuda/lib64 && sudo ldconfig
复制代码

而后再执行训练命令便可

nohup ./darknet detector train ../xxxx/xxxx.data ../xxxxx/xxxx1280TR_1.cfg  -i 0  >> 1280TR_0625_train1.txt  &
复制代码

现象3:

训练没法开始. 报错信息:

8Cannot load image "/mobileHDD/xxxx/images/xxx_ (7416).jpg"
STB Reason: unknown image type images
复制代码

解决:

图片压缩尺寸存在问题,须要从新生成图片.

问题4 模型检出物体效果极差

现象:

loss 在1.9 左右
thresh = 0.5,无物体检出.
只有thresh 调到0.01,才有部分物体能检测出来,而且有很是多错误的box,box 很是小

推测1:

根据[现象2],推测有多是cfg中anchors大小不正确,采用kmeans 聚类分析 anchors 大小. 由于新一批数据含有很是多得用户真实数据,而用户真实数据的物体大小波动范围很是大,原来的anchors不适合了.

推测2:

图片尺寸没有归一致使.

不知道怎么解决的了,有多是两个问题同时出现,致使了这个现象.到晚上9点才解决.左侧脑壳疼...用脑过分,硬怼把这个问题解决了....

从新生成数据,不是使用原图尺寸,而是使用1280px
anchors增长到21个

目前来看都正常了.....

问题5: 部分物体检测比较好,部分很是差

现象:

loss:

其它训练log:

2. [某类物体检测] 在用户图片中很是容易漏掉,对应[log]中 obj较低而在其它数据中效果较好,有些连一个都没有检测到.

[另一类检测] 基本没有效果
某类物体漏检很是严重

2~4点都是 thresh= 0.1的状况下很是反常!按理来讲,loss降低到0.5左右,效果应该是比较好的,可是却明显比以前的效果差

推测:

脏数据太多,一共发现近200张含脏数据的图片.(图片颠倒,漏标,错标,二值化),去除掉这部分后再训练看看是否会好不少.

推测否认:

剔除脏数据后,训练结果中现象仍然存在,但检测率高了很多.

loss = 0.6

2. 但obj 在0.3-0.6之间.仍然很是低,正常值应该在0.8以上.

在跑结果时发现一个现象:某类物体面积大一点,检测率很是低,而小面积的物体基本比较正常

所以,推测是anchors 设置不合理致使的,anchors设置过小致使

参数理解:

mask

为了达到在不一样[yolo]层使用不一样大小的anchors的目的,使用mask做为anchors的下标[index] 大概意思就是在浅层的[yolo]中使用较大的 anchors,粗略的把检测目标框选到,在深一层中,使用较小的anchors 更为精细地框选到检测目标.

做者原话: 每一层咱们都得知道全部的boxes大小.可是只会使用一部分的boxes去

mask 与上一层[convolutional] 的filters 是关联的. 只有当 filters = (classes +5)* [mask数量]的时候训练才能进行,不然会报错:输出层和输入层的数量不对应

darknet: ./src/parser.c:315: parse_yolo: Assertion `l.outputs == params.inputs' failed 复制代码

参数解读: blog.csdn.net/phinoo/arti…

个人滴滴云专属AI大师码：3388，购买滴滴云GPU等AI产品输入大师码享9折优惠。点击 www.didiyun.com前往滴滴云官网购买

本篇文章由一文多发平台ArtiPub自动发布

相关文章

相关标签/搜索

PHP参考手册

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<