机器学习中的正负样本

时间 2019-11-14

标签机器学习正负样本繁體版

原文原文链接

在机器学习中常常会遇到正负样本的问题，花了一点时间查找资料，基本上弄明白了一点究竟是怎么回事，记录在这里以便之后查看，也但愿可以帮助到有疑惑的人，固然也但愿理解的比较透彻的人看到以后对于理解的不对的地方可以予以指点。html

首先我将这个问题分为分类问题与检测问题两个方面进行理解。在分类问题中，这个问题相对好理解一点，好比人脸识别中的例子，查到的资料中介绍的比较清楚的网址以下（http://stackoverflow.com/questions/25598335/collect-negative-samples-of-adaboost-algorithm-for-face-detection），其中的截图以下，正样本很好理解，就是人脸的图片，负样本的选取就与问题场景相关，具体而言，若是你要进行教室中学生的人脸识别，那么负样本就是教室的窗子、墙等等，也就是说，不能是与你要研究的问题绝不相关的乱七八糟的场景图片，这样的负样本并无意义，还有一个比较好的网址是（http://www.doc.ic.ac.uk/~sgc/teaching/pre2012/v231/lecture10.html）算法

在检测的问题中，我理解着就不是那么简单了，由于检测问题须要作的事情是指出哪里有什么，也就是既要给出框，又要说明框中是什么，在这种状况下，咱们所具有的数据就是一些人工标注的图片，这些图片上有框，而且会给出框中的物体类别，咱们须要运用这些数据生成训练中的正负样本数据，参考了faster以及SSD两种检测框架中对于正负样本的选取准则，个人理解以下：网络

首先，检测问题中的正负样本并不是人工标注的那些框框，而是程序中（网络）生成出来的框框，也就是faster rcnn中的anchor boxes以及SSD中在不一样分辨率的feature map中的默认框，这些框中的一部分被选为正样本，一部分被选为负样本，另一部分被看成背景或者不参与运算。不一样的框架有不一样的策略，大体都是根据IOU的值，选取个阈值范围进行断定，在训练的过程当中还须要注意均衡正负样本之间的比例。框架

我理解着，在fast的框架中，也是须要多SS算法生成的框框与GT框进行IOU的判断，进而选取正负样本，总之，正负样本都是针对于程序生成的框框而言，而非GT数据。机器学习