机器学习(二):有监督学习、无监督学习和半监督学习

机器学习分类.png

1、基本概念

1 特征(feature)
数据的特征。web

举例:书的内容app

2 标签(label)
数据的标签。机器学习

举例:书属于的类别,例如“计算机”“图形学”“英文书”“教材”等。svg

3 学习(learning)
将不少数据丢给计算机分析,以此来训练该计算机,培养计算机给数据分类的能力。换句话说,学习指的就是找到特征与标签的映射(mapping)关系。这样当有特征而无标签的未知数据输入时,咱们就能够经过已有的关系获得未知数据标签。性能

举例:把不少书交给一个学生,培养他给书本分类的能力。学习

4 分类(classification)
定性输出称为分类,或者说是离散变量预测。xml

举例:预测明天是阴、晴仍是雨,就是一个分类任务。对象

5 回归(regression)
定量输出称为回归,或者说是连续变量预测;it

举例:预测明天的气温是多少度,这是一个回归任务;io

6 聚类(clustering)
无监督学习的结果。聚类的结果将产生一组集合,集合中的对象与同集合中的对象彼此类似,与其余集合中的对象相异。

举例:没有标准参考的学生给书本分的类别,表示本身认为这些书多是同一类别的(具体什么类别不知道)。

2、有监督学习(supervised learning)

不只把训练数据丢给计算机,并且还把分类的结果(数据具备的标签)也一并丢给计算机分析。
计算机进行学习以后,再丢给它新的未知的数据,它也能计算出该数据致使各类结果的几率,给你一个最接近正确的结果。
因为计算机在学习的过程当中不只有训练数据,并且有训练结果(标签),所以训练的效果一般不错。

举例:不只把书给学生进行训练给书本分类的能力,并且把分类的结果(哪本书属于哪些类别)也给了学生作标准参考。

有监督学习的结果可分为两类:分类或回归。


3、无监督学习(unsupervised learning)

只给计算机训练数据,不给结果(标签),所以计算机没法准确地知道哪些数据具备哪些标签,只能凭借强大的计算能力分析数据的特征,从而获得必定的成果,一般是获得一些集合,集合内的数据在某些特征上相同或类似。

举例:只给学生进行未分类的书本进行训练,不给标准参考,学生只能本身分析哪些书比较像,根据相同与类似点列出清单,说明哪些书比较多是同一类别的。

4、半监督学习(semi-supervised learning)

有监督学习和无监督学习的中间带就是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另外一部分没有标签,而没标签数据的数量经常远远大于有标签数据数量(这也是符合现实状况的)。
隐藏在半监督学习下的基本规律在于:数据的分布必然不是彻底随机的,经过一些有标签数据的局部特征,以及更多没标签数据的总体分布,就能够获得能够接受甚至是很是好的分类结果。

举例:给学生不少未分类的书本与少许的清单,清单上说明哪些书属于同一类别。

从不一样的学习场景看,SSL可分为四大类:

1 半监督分类
半监督分类(Semi-Supervised Classification):是在无类标签的样例的帮助下训练有类标签的样本,得到比只用有类标签的样本训练获得的分类器性能更优的分类器,弥补有类标签的样本不足的缺陷,其中类标签 取有限离散值。

2 半监督回归
半监督回归(Semi-Supervised Regression):在无输出的输入的帮助下训练有输出的输入,得到比只用有输出的输入训练获得的回归器性能更好的回归器,其中输出取连续值。

3 半监督聚类
半监督聚类(Semi-Supervised Clustering):在有类标签的样本的信息帮助下得到比只用无类标签的样例获得的结果更好的簇,提升聚类方法的精度。

4 半监督降维 半监督降维(Semi-Supervised Dimensionality Reduction):在有类标签的样本的信息帮助下找到高维输入数据的低维结构,同时保持原始高维数据和成对约束(Pair-Wise Constraints)的结构不变,即在高维空间中知足正约束(Must-Link Constraints)的样例在低维空间中相距很近,在高维空间中知足负约束(Cannot-Link Constraints)的样例在低维空间中距离很远。