机器学习笔记 (一) 监督学习、无监督学习

  • 监督学习(Supervised Learning)

在监督学习中,给定一组数据,咱们知道正确的输出结果应该是什么样子,而且知道在输入和输出之间有着一个特定的关系。这么说可能理解起来不是很清晰,不要紧,后面有具体的例子。算法

  • 监督学习的分类

监督学习可分为“回归”和“分类”问题。网络


监督学习分类

在回归问题中,咱们会预测一个连续值。也就是说咱们试图将输入变量和输出用一个连续函数对应起来;而在分类问题中,咱们会预测一个离散值,咱们试图将输入变量与离散的类别对应起来。函数

下面举两个例子,就会很是清楚这几个概念了。学习

  • 监督学习举例

  • 回归

经过房地产市场的数据,预测一个给定面积的房屋的价格就是一个回归问题。这里咱们能够把价格当作是面积的函数,它是一个连续的输出值。 可是,当把上面的问题改成“预测一个给定面积的房屋的价格是否比一个特定的价格高或者低”的时候,这就变成了一个分类问题, 由于此时的输出是‘高’或者‘低’两个离散的值。视频


  • 分类

给定医学数据,经过肿瘤的大小来预测该肿瘤是恶性瘤仍是良性瘤(课程中给的是乳腺癌的例子),这就是一个分类问题,它的输出是0或者1两个离散的值。(0表明良性,1表明恶性)。get

分类问题的输出能够多于两个,好比在该例子中能够有{0,1,2,3}四种输出,分别对应{良性, 第一类肿瘤, 第二类肿瘤, 第三类肿瘤}。数据分析

下图中上下两个图只是两种画法。第一个是有两个轴,Y轴表示是不是恶性瘤,X轴表示瘤的大小; 第二个是只用一个轴,可是用了不一样的标记,用O表示良性瘤,X表示恶性瘤。io


在这个例子中特征只有一个,那就是瘤的大小。 有时候也有两个或者多个特征, 例以下图, 有“年龄”和“肿瘤大小”两个特征。(还能够有其余许多特征,以下图右侧所示)class


  • 无监督学习

在无监督学习中,咱们基本上不知道结果会是什么样子,但咱们能够经过聚类的方式从数据中提取一个特殊的结构。在无监督学习中给定的数据是和监督学习中给定的数据是不同的。在无监督学习中给定的数据没有任何标签或者说只有同一种标签。以下图所示:集群


以下图所示,在无监督学习中,咱们只是给定了一组数据,咱们的目标是发现这组数据中的特殊结构。例如咱们使用无监督学习算法会将这组数据分红两个不一样的簇,,这样的算法就叫聚类算法。


  • 无监督学习举例

  • 新闻分类

第一个例子举的是Google News的例子。Google News搜集网上的新闻,而且根据新闻的主题将新闻分红许多簇, 而后将在同一个簇的新闻放在一块儿。如图中红圈部分都是关于BP Oil Well各类新闻的连接,当打开各个新闻连接的时候,展示的都是关于BP Oil Well的新闻。


  • 根据给定基因将人群分类

如图是DNA数据,对于一组不一样的人咱们测量他们DNA中对于一个特定基因的表达程度。而后根据测量结果能够用聚类算法将他们分红不一样的类型。这就是一种无监督学习, 由于咱们只是给定了一些数据,而并不知道哪些是第一种类型的人,哪些是第二种类型的人等等。


  • 鸡尾酒派对效应

详见课程: Unsupervised Learning

  • 其余

这里又举了其余几个例子,有组织计算机集群,社交网络分析,市场划分,天文数据分析等。具体能够看一下视频:Unsupervised Learning

连接:http://www.jianshu.com/p/7bae1ead174e