AI-数据标注

    算力数据是影响深度学习的两个关键因素。在算力知足的状况下,为了达到更好的效果,咱们就须要提供海量优质素材数据给神经网络,以求训练出来高精度的网络模型。在平时的测试过程当中,也发现基于深度学习的算法,素材的数量素材的均衡度标注的质量对训练出来的模型精度影响很是大。
    常见的算法模型训练所须要的素材格式主要为:算法

  • 二维图像文件
  • 对应二维图像中人工标注出来的目标信息,包括目标坐标[(xmin,ymin)(xmax、ymax)]/大小、目标类型(class)

    模型训练的过程就是将上述素材输入到神经网络,通过反复迭代优化,以求获得效果最好的通用模型。在实际应用模型的时候,会根据检测到目标对象输出坐标/大小、目标类型、置信度。用一种数据类型表示以下:网络

(xmin,ymin,xmax,ymax,class,score)
可设置一个门限值,经过与score进行比较,过滤掉部分结果工具

素材标注工具

    经过对深度学习的基础知识学习,咱们能够理解深度学习就是经过输入海量标注素材,不断调整模型参数去拟合,最终输出效果较好的模型,再经过输入非素材中的数据来预测结果,以求达较高的预测准确率和通用性。如下为目前经常使用的图像素材标注工具labelImg,标注完成后会生成相应的xml文件,用以标识坐标和类型,以下图所示:学习

  • 标注工具
    01数据标注工具.jpg
  • xml文件
    02标注生成的xml文件.jpg

标注可能存在的问题

    图像标注时,须要人工标出目标的位置和大小,并给出或选择目标类型。因此对人工标注是有必定要求的。常见的标注问题以下所示:测试

  • 标注框过大或太小
  • 标注框位置不正确
  • 标注类型错误
  • 存在漏标注状况
  • 存在过标注状况
  • 模糊的目标也进行标注
  • 标注分割错误问题
  • 标注框不完整,存在缺失

所以一个合格的标注应该具有如下因素:字体

  • 标注框大小和位置合适
  • 标注框能将目标对象围住
  • 标注框的对象类型准确无误
  • 一个标注框中仅包含一种目标对象类型

标注注意事项

标注框大小合适

    标注框大小合适意味着所画的标注矩形框恰好将目标对象包围住,对象与标注框间的间隙合适,不能过大也不能过滤。过大会传递给网络没必要要的信息,过小传递给网络的信息会存在缺失。优化

03标注大小问题.jpg

标注框位置合适

    位置通常是标注框大小合适,但存在与目标对象存在偏移的状况,以下所示:设计

04标注框偏移.jpg

目标遮挡时处理

    在标注时,不能仅标注完整可见的目标对象,对于人眼可见能分辨的对象也要进行标注,为提升模型通用性,不少遮挡目标也是须要能被模型检测识别出来的。针对这种状况须要根据具体业务规则进行处理,通常须要遵循的原则以下所示:视频

  • 对象的遮挡面积小于20%~40%,即人眼可视面积为60%~80%须要进行标注
  • 对于遮挡的对象,标注时只须要标注可见部分
  • 对于遮挡的对象,人眼能够识别出对象类型

05遮挡标注.jpg

标注不能遗漏目标对象

    虽然各个算法对小目标的检测效果有所差别,但对于小目标的目标对象仍然须要进行标注。遵循的原则跟目标遮挡时的处理同样,只要人眼能够进行分辨,仍然须要进行标注。

06标注小目标.jpg

标注不能存在过标注状况

    不一样的业务,对于目标的识别也是不同的,如对于Logo侵权这种问题,如国际一些公开通用的Logo则不须要进行标注,以下所示:

07过标注状况.jpg

针对Logo侵权的目标对象,通常打印体字无须要进行标注,但对于艺术字或单独设计的字体也是须要进行标注的。

对于很是模糊的目标对象的处理

    这种状况通常是被遮挡面积过大、距离太远或图像和视频分辨率很低,致使人眼没法进行分辨,针对这种状况则无需进行标注。

08模糊对象不须要进行标注.jpg

对象分开标注问题

    这种状况须要根据业务场景进行区分处理。在平时测试,我所遵循的原则以下所示:

  • 背景为纯色
  • 图像中的对象能够被分割为一个独立可识别的对象个体
    同时知足以上两个条件,则进行单独标注,不然则看成一个总体进行标注。

09标注分割问题.jpg

标注框不完整

    这种状况通常为标注软件Bug或人工标注出现越界,致使标注框看起来存在部分框缺失。以下所示:

10标注框缺失.jpg

如何提升素材标注质量

从素材的三大关键要素(素材数量、素材的均衡度、标注质量)来看,咱们能够采用如下方式来保证素材质量

素材数量

    在收集数据时,须要尽量多的从各个渠道多收集素材数据,如合法爬虫、公开数据集等

素材的均衡度

    素材的均衡度一般是指素材的多样性分布。如视频里面,因为拍摄的角度不一样,出来的素材角度也是不一样,如前方、后方、左侧、右侧等。图像也是取决于拍摄素材的摆放角度,例如拍摄一件衣服,如正前方,正后方、左侧、右侧,斜面拍摄,距离远近等,只有在选择的素材尽量的多样,训练出来的模型也才有更好的通用性。

标注质量

    数据标注和检查是很是重要的一个环节,须要注意如下几个方面:

  • 一、不要单纯追求速度而忽视质量

    虽然对于数据的标注,有时间和进度要求,但要结合实际状况找到平衡点,不要单纯追求速度,致使标注质量降低,致使往后大量返工

  • 二、按期专人对标注素材进行审核

    指定专人按期对标注的素材进行审核,能够很大避免在标注过程出现的问题,如标注质量较差,每一个人对标注的理解存在差别等。

参考文章:http://www.javashuo.com/article/p-yxzzuynd-he.html

相关文章
相关标签/搜索