机器学习入门:监督学习与无监督学习

机器学习:

学习的过程就是触类旁通的过程。
例如,中学阶段经过作大量的练习题,为的就是在高考解决问题。高考的题目通常来讲是以前确定没有遇到过的,可是这并不意味着这些题目咱们没法解决。经过对以前所作过的练习题的分析,找到解题方法,一样能够解决陌生的题目。
机器学习其实就是将这一套方式运用到机器上,利用一些已知的数据来训练机器(作练习题),让机器本身分析这些数据,并找到内在联系(学习解题方法),从而对未知的数据进行预测断定等(作高考题)。web

百度百科定义以下:

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及几率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,从新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具备智能的根本途径,其应用遍布人工智能的各个领域,它主要使用概括、综合而不是演绎。算法


监督学习:

监督学习(Supervised Learning),用上述例子来解释,就是高考前所作的练习题是有标准答案的。在学习的过程当中,咱们能够经过对照答案,来分析问题找出方法,下一次在面对没有答案的问题时,每每也能够正确地解决。
对于机器学习来讲,监督学习就是训练数据既有特征(feature)又有标签(label),经过训练,让机器能够本身找到特征和标签之间的联系,在面对只有特征没有标签的数据时,能够判断出标签。机器学习

监督学习分为两大类:

  • 回归分析(Regression Analysis):若是拿二维平面来讲,就是对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,经过这个函数模型获得标签y。 -
  • 分类(Classification):训练数据是特征向量与其对应的标签,一样要经过分析特征向量,对于一个新的向量获得其标签。
    回归分析与分类区别其实就是数据的区别就是回归是针对连续数据,分类是针对离散数据。

非监督学习:

与监督学习相对的,是非监督学习(Unsupervised Learning)。
再举高中作练习题的例子,就是所作的练习题没有标准答案,换句话说,你也不知道本身作的是否正确,没有参照,想一想就以为是一件很难的事情。
可是就算不知道答案,咱们仍是能够大体的将语文,数学,英语这些题目分开,由于这些问题内在仍是具备必定的联系。
这种问题在机器学习领域中就被称做聚类(Clustering),相对于监督学习,无监督学习显然难度要更大,在只有特征没有标签的训练数据集中,经过数据之间的内在联系和类似性将他们分红若干类。
Google新闻按照内容结构的不一样分红财经,娱乐,体育等不一样的标签,这就是一种聚类。svg