随着数据的暴增和计算机硬件技术的发展,也催生了AI技术在各行各业的应用渗透。而想将AI技术应用到各行各业,数据是必需品。由于数据直接影响到AI最终训练出来的模型好坏。AI建模没有太大门槛,但数据才是真正的门槛。所以,目前业界流传着一段话有多少人工智能,就有多少人工。前一篇讲述了数据如何标注及其注意,今天来学习一下数据标注的类型有哪些?git
目前各个公司须要标注的数据,通常同下面几大公司或人员承担github
公司本身招聘人员或实习生进行标注算法
这种方式最大的优点是:能够随时检查标注的质量和进度,便于快速沟通和调整,数据能够作到保密不外泄;劣势是成本较高工具
外包给数据标注公司学习
这种方式最大的优点是:速度很是快,成本低廉,标注公司也具有必定的开发标注工具能力,可定制性化能力较强;但劣势也明显标注公司鱼龙混杂,良莠不齐,须要随时检查标注质量,返工成本较大。另外数据也没法作到保密不外泄人工智能
外包给私人团体3d
这种方式的优劣势基本同标注公司。优点是成本较低,由于能够大量招收人员,如农村闲置人员,兼职人员等。稍微培训下便可投入标注。视频
针对数据分配给不一样的人员,相应的角色也能够分为三种类型:对象
数据标注人员blog
主要负责数据的标注和汇总
数据检查人员
主要负责数据标注的质量检查,常采用抽检方式检查,可细分为部分抽检(比例约20%~30%)或所有抽检
数据管理人员
负责人员任务分配、进度跟进、标注培训及对外/对内协调沟通等
因AI技术应用到具体的实例场景,会有很大差别,所以标注的类型也有不少,详细以下所示:
这种类型应该是最多见的标注方式,经常使用于检测目标对象的相应区域,标注框位于目标对象的四周,以下图所示:
也称立方体标注,相比2D标注而言,还能够展示目标对象的近似深度。以下所示:
根据检测区域的不一样,将图像标注为不一样的像素,以下所示:
根据需求标注目标对象的形状,经常使用于没法使用边框标注的不规则的目标对象,须要在目标对象的各个关键点进行描点,不管最终为什么形状,均要能反应目标对象的轮廓形状和全部边缘,以下所示:
根据需求标注目标对象对应的线条位置,线条多是直线也多是曲线,经常使用于分隔代表边界的事物。经常使用于自动驾驶,以下所示:
这种标注通常用于人脸识别,人体姿态跟踪(如POSE算法)等
在视频或连续的图像中跟踪标注的目标对象,造成与ID关联的运动轨迹
英文语音转中文文本或中文文本转英文语音。
外呼机器人进行外呼记录语音标注呼叫成功或失败,从而训练话术。
经常使用标注工具以下所示:
labelImg
下载地址:https://github.com/tzutalin/labelImg
注意事项:使用labelImg时,路径不能包含中文
精灵标注助手