机器学习:监督学习和无监督学习

**************************************算法

注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的《机器学习》课程笔记。博主深感学过课程后,不进行总结很容易遗忘,根据课程加上本身对不明白问题的补充遂有此系列博客。本系列博客包括线性回归、逻辑回归、神经网络、机器学习的应用和系统设计、支持向量机、聚类、将维、异常检测、推荐系统及大规模机器学习等内容。数据库

**************************************网络

机器学习定义机器学习

        机器学习是人工智能的一个分支,目标是赋予机器一种新的能力。(专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,从新组织已有的知识结构使之不断改善自身的性能。)机器学习的应用很普遍,例如大规模的数据挖掘(网页点击数据,医疗记录等),无人驾驶飞机、汽车,手写手别,大多数的天然语言处理任务,计算机视觉,推荐系统等。性能

        机器学习有不少定义,广为人知的有以下两条:学习

ArthurSamuel (1959): Machine Learning: Field of study that gives computers theability to learn without being explicitly programmed.人工智能

TomMitchell (1998) : Well-posed Learning Problem: A computer program is said tolearn from experience E with respect to some task T and some performance measureP, if its performance on T, as measured by P, improves with experience E.spa

例子:对于一个垃圾邮件识别的问题,将邮件分类为垃圾邮件或非垃圾邮件是任务T,查看哪些邮件被标记为垃圾邮件哪些被标记为非垃圾邮件是经验E,正确识别的垃圾邮件或非垃圾邮件的数量或比率是评测指标P。.net

监督学习设计

        对具备概念标记(分类)的训练样本进行学习,以尽量对训练样本集外的数据进行标记(分类)预测。这里,全部的标记(分类)是已知的。所以,训练样本的岐义性低。

        监督学习是训练神经网络和决策树的最多见技术。这两种技术(神经网络和决策树)高度依赖于事先肯定的分类系统给出的信息。


        房屋价格预测-回归(Regression): 预测连续的输出值(价格)


        乳腺癌(良性,恶性)预测问题-分类(Classification): 预测离散的输出值(0, 1)


即便有无限多种特征也能够处理(支持向量机)。


分类、回归都是监督学习的内容。

无监督学习

        对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,全部的标记(分类)是未知的。所以,训练样本的岐义性高。

        常见的无监督学习算法有聚类。


        上面介绍了监督学习。回想当时的数据集,如图表所示,这个数据集中每条数据都已经标明是阴性或阳性,便是良性或恶性肿瘤。因此,对于监督学习里的每条数据,咱们已经清楚地知道,训练集对应的正确答案,是良性或恶性。

        在无监督学习中,咱们已知的数据。看上去有点不同,不一样于监督学习的数据的样子,无监督学习中没有任何的标签或者是有相同的标签。针对数据集,无监督学习就能判断出数据有两个不一样的汇集簇。无监督学习算法可能会把这些数据分红两个不一样的簇。因此叫作聚类算法,它能被用在不少地方。

        无监督学习有着大量的应用。它用于组织大型计算机集群。第二种应用就是社交网络的分析。还有市场分割。许多公司有大型的数据库,存储消费者信息。因此,你能检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不一样的细分市场中,你才能自动并更有效地销售或不一样的细分市场一块儿进行销售。最后,无监督学习也可用于天文数据分析,这些聚类算法给出了使人惊讶、有趣、有用的理论,解释了星系是如何诞生的。这些都是聚类的例子,聚类只是无监督学习中的一种

注:本文是学习Andrew Ng教授的《机器视觉》课程的学习笔记。


转载请注明出处:http://blog.csdn.net/lsh_2013/article/details/47342641