机器学习笔记——监督学习,无监督学习,半监督学习

这个问题能够回答得很简单:是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为有监督学习,没标签则为无监督学习。算法

什么是学习(learning)?网络

学习:一个成语就可归纳:触类旁通。此处以高考为例,高考的题目在上考场前咱们未必作过,但在高中三年咱们作过不少不少题目,懂解题方法,所以考场上面对陌生问题也能够算出答案。机器学习的思路也相似:咱们能不能利用一些训练数据(已经作过的题),使机器可以利用它们(解题方法)分析未知数据(高考的题目)?机器学习

 

什么是监督学习?ide

监督学习(supervised learning)经过已有的训练样本(即已知数据以及其对应的输出)来训练从而获得一个最优模型,再利用这个模型将全部新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具备了对未知数据进行分类的能力。学习

监督学习中只要输入样本集,机器就能够从中推演出制定目标变量的可能结果.如协同过滤推荐算法,经过对训练集进行监督学习,并对测试集进行预测,从而达到预测的目的。监督学习里典型的例子就是KNN、SVM,决策树、神经网络以及疾病监测。测试

目前分类算法的效果仍是不错的,但相对来说,聚类算法就有些惨不忍睹了。确实,无监督学习自己的特色使其难以获得如分类同样近乎完美的结果。这也正如咱们在高中作题,答案(标签)是很是重要的,假设两个彻底相同的人进入高中,一个正常学习,另外一人作的全部题目都没有答案,那么想必第一我的高考会发挥更好,第二我的会发疯。idea

 

什么是无监督学习?spa

无监督学习(unsupervised learning):咱们事先没有任何训练数据样本,须要直接对数据进行建模。好比咱们去参观一个画展,咱们对艺术一无所知,可是欣赏完不少幅做品以后,咱们面对一幅新的做品以后,至少能够知道这幅做品是什么派别的吧,好比更抽象一些仍是更写实一点,虽然不能很清楚的了解这幅画的含义,可是至少咱们能够把它分为哪一类。变量

再给你们举一个无监督学习的例子。远古时期,咱们的祖先打猎吃肉,他们自己以前是没有经验而言的,当有人用很粗的石头去割动物的皮的时候,发现很难把皮隔开,可是又有人用很薄的石头去割,发现比别人更加容易的隔开动物的毛皮,因而,次日、第三天、……,他们就知道了须要寻找比较薄的石头片来割。这些就是无监督学习的思想,外界没有经验和训练数据样本提供给它们,彻底靠本身摸索。sed

无监督学习里典型的例子就是聚类了。聚类的目的在于把类似的东西聚在一块儿,而咱们并不关心这一类是什么。所以,一个聚类算法一般只须要知道如何计算类似度就能够开始工做了。

 

什么是半监督学习?

半监督学习(unsupervised learning):

这时有人可能会想,难道有监督学习和无监督学习就是非黑即白的关系吗?有没有灰呢?Good idea。灰是存在的。两者的中间带就是半监督学习(semi-supervised learning)。对于半监督学习,其训练数据的一部分是有标签的,另外一部分没有标签而没标签数据的数量经常极大于有标签数据数量(这也是符合现实状况的)。隐藏在半监督学习下的基本规律在于:数据的分布必然不是彻底随机的,经过一些有标签数据的局部特征,以及更多没标签数据的总体分布,就能够获得能够接受甚至是很是好的分类结果。(此处大量忽略细节)

总结

所以,learning家族的总体构造是这样的:

有监督学习(分类,回归)

半监督学习(分类,回归),transductive learning(分类,回归)

半监督聚类(有标签数据的标签不是肯定的,相似于:确定不是xxx,极可能是yyy)

无监督学习(聚类)

 

那么,何时应该采用监督学习,何时应该采用非监督学习呢?一种很是简单的回答就是从定义入手,若是咱们在分类的过程当中有训练样本(training data),则能够考虑用监督学习的方法;若是没有训练样本,则不可能用监督学习的方法。可是事实上,咱们在针对一个现实问题进行解答的过程当中,即便咱们没有现成的训练样本,咱们也可以凭借本身的双眼,从待分类的数据中人工标注一些样本,并把他们做为训练样本,这样的话就能够把条件改善,用监督学习的方法来作。