转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.htmlhtml
各类类型的机器学习问题。算法
不一样类型的输出空间。机器学习
二元分类问题。学习
前两章中提到的银行发信用卡问题就是一个典型的二元分类问题,其输出空间只包含两个标记+1和-1,分别对应着发卡与不发卡。spa
固然二元分类问题包含多种状况,如2.3节中提到过,如图3-1所示。3d
图3-1 a) 线性可分 b) 线性不可分包含噪音 c) 多项式可分htm
图3-1a为线性可分(linear binary separable),如可使用PLA求解;b是包含噪音可使用pocket求解,而c会在后面章节中详细叙述,属于多项式可分解。固然解决以上三种二元分类问题的机器学习方法不少,由于二元分类问题是机器学习中很重要、核心的问题。blog
多元分类。图片
有二元分类,就不难想到多元分类的问题,该类问题输出标签不止两种,而是{1,2,…,K}。这在人们的生活中很是常见,好比给水果的图像分类,识别硬币等等,其主要的应用场景就是模式识别。get
回归分析。
该问题的输出空间为整个实数集上或者在必定的实数范围内,这和前面讲的分类问题彻底不同,该输出不是一种毫无心义的标记,而是有实际意义的输出值。好比给定一个大气数据能够推出明天的天气等等之类的问题。统计学习对该类问题的研究比较成熟。
结构学习。
固然还有其余更为复杂的问题,好比不少不少类型的分类问题。
不一样的数据标记。
监督学习。
知道数据输入的同时还知道数据的标记。就至关于告诉你题目的同时还告诉你答案,让你在这种环境下学习,称之为监督学习(supervised learning)或者叫有师学习(learning with a teacher),以前讨论的一些算法都是这类问题。举个例子,硬币分类问题,如图3-2所示,其中横轴标示硬币的大小,纵轴标示硬币汇集的堆。
图3-2 有监督的多类别分类问题
其中这几种类别的硬币已经被各类不一样的颜色所标示好。
无监督学习。
这是一种没有标示(就是没有输出y)的问题,就是不告诉你题目的正确答案让你本身去寻找,再以硬币分类为例进行阐述,如图3-3所示。
图3-3 无监督的多类别分类问题
这种类型的问题最多见的是聚类或者叫分群(clustering),从图中不难看出无标示的难度比有标示的难度增长很多,并且极有可能犯错,可是这种问题却拥有普遍的应用场景(毕竟标示须要花费大量人力物力),如将新闻按照不一样的主题聚类,按用户的属性将用户聚成不一样类型的用户群等等。
除了聚类以外还有其余的无监督学习,如密度评估(density estimation)和离群点检测(outlier detection)等等。
半监督学习。
是否能在监督式学习和无监督学习之间取一个中庸的方法呢?答案是能够的,就是半监督学习,它经过少许有标记的训练点和大量无标记的训练点达到学习的目的。仍是以硬币为例,如图3-4所示。这种类型的例子也有不少,好比图像的识别,不少状况下咱们不可能把每张图片都作上标记(由于作这种标记须要耗费大量的人力物力,是一种昂贵的行为),此时,使用半监督学习是一种不错的选择。
图3-4 半监督学习
强化学习。
前面三个是机器学习中最传统的三种方式,除此以外,还有一种方式是经过对一个行为做出奖励或者惩罚,以此得到的输出,进而进行学习,这种学习方式称之为强化学习。
通常能够表示为,其中向量
仍是为输入向量,
表示一种输出,注意
并不必定是最佳输出,最后一项是对输出作出的评判。好比一个广告系统能够写成以下形式
。
不一样方式获取数据。
对此节的内容进行简单阐述,在不一样的协议中能够将机器学习分为三大类:
不一样的输入空间。
输入又能够称之为特征(features),其主要分为三种: