机器学习之有监督学习,无监督学习,半监督学习

前言

机器学习是数据分析和数据挖掘的一种比较经常使用,比较好的手段从有无监督的角度,能够分为三类:html

  1. 有监督学习
  2. 无监督学习
  3. 半监督学习

有监督学习

用已知某种或某些特性的样本做为训练集,以创建一个数学模型,再用已创建的模型来预测未知样本,此种方法被称为有监督学习,是最经常使用的一种机器学习方法。是从标签化训练数据集中推断出模型的机器学习任务web

问:有监督学习的定义最关键的是什么呢?
从标签化的训练数据集中推断出模型机器学习任务
前面都是废话,没有用,最关键的要看的就是:从标签化的训练数据集中推断出模型机器学习任务算法

问:什么是标签
好比说有一张猫的图片,咱们都知道它是只猫,可是计算机不知道它是只猫,怎么办呢?给这张图片打上个标签,而后计算机就知道它是只猫了,后面计算机根据这个标签对全部的猫进行学习就能经过这一只猫认识全部的猫了。app

给数据打标签,其实就是告诉计算机,前面这么多特征( x 1 x_1 ~ x n x_n )到底描述的是什么。很天然的就是Y,Y能够称之为Label,也能够称之为Target(咱们的目标值)机器学习

咱们接到一个任务或者说模型,首先要定义一个目标,这个目标对应的是谁?咱们的目标要对这个任务进行合理的建模和预测,也就是说咱们的目标在进行预测的时候有一个对应的y的值的话,
x1第一个特征,xn第n个特征,矩阵通常是有m行n列的这样一个矩阵,因此咱们通常去写的时候,这个数据集中通常会有m条观测值以及n列的这样一个特征。svg

而后最终会有一个目标值的y,若是有y,咱们就称之为有监督学习,咱们就要使用有监督学习进行模型的构建,实际上咱们在平常的业务当中可以多使用有监督学习就多使用有监督学习,好比说在有 x 1 , x 2 , x 3 ,   , x n x_1, x_2, x_3, \cdots, x_n 以及y的状况下就老老实实用有监督学习了,就别用无监督学习。学习

无监督学习

知道了有监督学习的定义了,无监督学习的定义也就出来了。在算法构建的过程当中不考虑Y的值,只经过特征信息去概括出一些新的规律出来,这个方法就称之为无监督学习。spa

有监督学习和无监督学习的区别就是一个有y,一个没有y。这是最简单的记忆方式。xml

因此总结起来正式的说法是:无监督学习的训练集中没有人为的标注的结果,在非监督的学习过程当中,数据并不被特别标识,学习模型是为了推断出数据的一些内存结构。htm

推断出数据的一些内在结构这是无监督学习学习的做用

问:为何不建议使用无监督学习呢
无监督学习须要咱们推断一些结构,可是在推断一些结构的时候可能会由于人为的主观臆断而出现一些误差,这个就不是纯数学可以证实我是对的了,这个时候再进行无监督学习就是在瞎猜。

在没有y值的状况怎么办?是否是只能进行无监督学习了呢?
没有Y值的时候,本身给数据打标签,本身把Y作出来。而后进行有监督学习
不少状况下,在实际的工做业务中不少的工做量都是给数据打标签,你可能花半个半个月的时间,五六我的就坐那儿每天打标签,几万条数据坐那儿打标签打个三四天很正常。

因此就须要注意了,若是说真的是说在没有标签的状况下,你看看有没有合理的方式先把标签获取过来。 若是没有合理的渠道,就看看能不能进行人为地打标签再进行有监督学习的学习,这样作的结果会更好些。

半监督学习

看上面有监督学习和无监督学习的定义,就是一半有一半无呗
意思就是用少许的有标注的样本和大量未标注的样本进行训练和分类,这样是有监督学习和无监督学习的结合。

考虑如何利用少许的瓢样本和大量的未瓢样本进行训练和分类的问题,
是有监督学习和无监督学习的结合。

这就是机器学习大体的一个分类