YOLO目标检测快速上手这篇文章咱们经过简短的代码就实现了一个视频目标检测功能。本文将介绍如何使用其余数据集从新训练YOLO模型,文章将会详细介绍每一步。python
咱们将使用Pascal VOC数据集训练咱们的模型,该数据集能够用来作图像分类、目标检测、图像分割。
下载并解压文件后,咱们介绍下相关文件的做用。segmentfault
如图所示,文件保存了图片文件名,尺寸,标注,坐标,是否分割等信息。dom
“layout”文件夹:保存具备人体部位的图片名字列表。
“main”文件夹:保存用于图像物体识别的图片名字列表。
“segmenttions”文件夹:保存用于图像分割的图片名字列表。
由于本次项目使用“main”文件夹,因此咱们再详细看下:ide
文件夹一共有20个分类的文件,经过文件名字我想你们确定也知道做用了。这里介绍下文件里的正负数表明正负样本,如:函数
这里咱们要留意的是图片名字,之后咱们在本身建立数据集的时候,最好也参考此命名方式。学习
标签的结构是四维分别是("类别",“中心点x坐标”,“中心点y”坐标,“图片宽度”,“图片高度”),其实就是上面所说的图片xml文件中的内容。咱们能够经过官方提供的python文件来执行此操做。优化
# 获取py文件 wget https://pjreddie.com/media/files/voc_label.py
执行此文件以前留意下相关路径是否正确spa
import xml.etree.ElementTree as ET import pickle import os from os import listdir, getcwd from os.path import join sets=[('2007', 'train'), ('2007', 'val'), ('2007', 'test')] classes = ["aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow", "diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"] def convert(size, box): dw = 1./size[0] dh = 1./size[1] x = (box[0] + box[1])/2.0 y = (box[2] + box[3])/2.0 w = box[1] - box[0] h = box[3] - box[2] x = x*dw w = w*dw y = y*dh h = h*dh return (x,y,w,h) def convert_annotation(year, image_id): in_file = open('VOCdevkit/VOC%s/Annotations/%s.xml'%(year, image_id)) out_file = open('VOCdevkit/VOC%s/labels/%s.txt'%(year, image_id), 'w') tree=ET.parse(in_file) root = tree.getroot() size = root.find('size') w = int(size.find('width').text) h = int(size.find('height').text) for obj in root.iter('object'): difficult = obj.find('difficult').text cls = obj.find('name').text if cls not in classes or int(difficult) == 1: continue cls_id = classes.index(cls) xmlbox = obj.find('bndbox') b = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text), float(xmlbox.find('ymax').text)) bb = convert((w,h), b) out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n') wd = getcwd() for year, image_set in sets: if not os.path.exists('VOCdevkit/VOC%s/labels/'%(year)): os.makedirs('VOCdevkit/VOC%s/labels/'%(year)) image_ids = open('VOCdevkit/VOC%s/ImageSets/Main/%s.txt'%(year, image_set)).read().strip().split() list_file = open('%s_%s.txt'%(year, image_set), 'w') for image_id in image_ids: list_file.write('%s/VOCdevkit/VOC%s/JPEGImages/%s.jpg\n'%(wd, year, image_id)) convert_annotation(year, image_id) list_file.close()
执行py文件:code
python voc_label.py
执行成功后会生成一个label文件夹和三个txt文件,分别是“2007_train.txt”,"2007_test.txt","2007_val.txt"(我只下载了2007的数据集),文件保存的是对应功能的所有图片路径:orm
label文件夹内文件格式:
分别是:("类别",“中心点x坐标”,“中心点y”坐标,“图片宽度”,“图片高度”)
打开darknet/cfg/voc.data,修改“train”,“valid”文件路径。
首先下载YOLOv3模型:
wget https://pjreddie.com/media/files/darknet53.conv.74
训练以前,咱们先看下yolov3-voc.cfg文件里都是什么:
[net] # Testing # batch=1 # subdivisions=1 # 模型训练模式 Training # batch_size batch=64 # 用于进一步分割batch_size,分割后的batch_size大小为:batch_size/subdivisions subdivisions=16 # 模型输入图像宽 width=416 # 模型输入图像高 height=416 # 图像通道数 channels=3 # 使用带动量优化函数的动量参数 momentum=0.9 # 权重衰减率,用于防止过拟合 decay=0.0005 # 如下4项是经过改变图像角度,饱和度,曝光量,色调来生成更多样本,可用于防止过拟合 angle=0 saturation = 1.5 exposure = 1.5 hue=.1 # 初始学习率 learning_rate=0.001 burn_in=1000 # 迭代次数 max_batches = 50200 # 当迭代到40000,45000时更改学习率 policy=steps steps=40000,45000 scales=.1,.1 [convolutional] # BN标准化处理,能够经过改变数据分布,处理梯度太小问题,加快模型收敛 batch_normalize=1 # 输出特征大小 filters=32 # 卷积核大小3x3 size=3 # 卷积步长为1 stride=1 # pad为0,padding由 padding参数指定。若是pad为1,padding大小为size/2 pad=1 # 激活函数,和relu的区别是当输入值小于0时,输出不为0 activation=leaky **。。。。。省略。。。。。。** [yolo] mask = 0,1,2 # 预选框,可手动指定也可经过聚类学习获得 anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326 # 识别种类 classes=20 # 每一个cell预测box数量,yolov1时只有一个 num=9 # 增长噪声 jitter=.3 ignore_thresh = .5 truth_thresh = 1 random=1
执行训练:
./darknet detector train cfg/voc.data cfg/yolov3-voc.cfg darknet53.conv.74
训练完成后,权重文件保存在backup文件夹内。
若是训练咱们本身的数据,数据准备工做参考VOC数据集,在模型训练以前还要更改cfg/yolov3-voc.cfg文件,修改classes类别数量和filter数量,其中filter计算方式:3*(classes+1+4),而后训练便可。