机器学习基石笔记3——在什么时候可使用机器学习(3)(修改版)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.htmlhtml

目录

机器学习基石笔记1——在什么时候可使用机器学习(1)

机器学习基石笔记2——在什么时候可使用机器学习(2)

机器学习基石笔记3——在什么时候可使用机器学习(3)(修改版)

机器学习基石笔记4——在什么时候可使用机器学习(4)

机器学习基石笔记5——为何机器能够学习(1)

机器学习基石笔记6——为何机器能够学习(2)

机器学习基石笔记7——为何机器能够学习(3)

机器学习基石笔记8——为何机器能够学习(4)

机器学习基石笔记9——机器能够怎样学习(1)

机器学习基石笔记10——机器能够怎样学习(2)

机器学习基石笔记11——机器能够怎样学习(3)

机器学习基石笔记12——机器能够怎样学习(4)

机器学习基石笔记13——机器能够怎样学得更好(1)

机器学习基石笔记14——机器能够怎样学得更好(2)

机器学习基石笔记15——机器能够怎样学得更好(3)

机器学习基石笔记16——机器能够怎样学得更好(4)

 

3、Types of Learning

各类类型的机器学习问题。算法

3.1 Learning with Different Output Space

不一样类型的输出空间。机器学习

3.1.1 binary classification

二元分类问题。学习

前两章中提到的银行发信用卡问题就是一个典型的二元分类问题,其输出空间只包含两个标记+1和-1,分别对应着发卡与不发卡。spa

固然二元分类问题包含多种状况,如2.3节中提到过,如图3-1所示。3d

 

图3-1 a) 线性可分 b) 线性不可分包含噪音 c) 多项式可分htm

 

图3-1a为线性可分(linear binary separable),如可使用PLA求解;b是包含噪音可使用pocket求解,而c会在后面章节中详细叙述,属于多项式可分解。固然解决以上三种二元分类问题的机器学习方法不少,由于二元分类问题是机器学习中很重要、核心的问题。blog

 

3.1.2 Multiclass Classification

多元分类。图片

有二元分类,就不难想到多元分类的问题,该类问题输出标签不止两种,而是{1,2,…,K}。这在人们的生活中很是常见,好比给水果的图像分类,识别硬币等等,其主要的应用场景就是模式识别。get

 

3.1.3 Regression

回归分析。

该问题的输出空间为整个实数集上或者在必定的实数范围内,这和前面讲的分类问题彻底不同,该输出不是一种毫无心义的标记,而是有实际意义的输出值。好比给定一个大气数据能够推出明天的天气等等之类的问题。统计学习对该类问题的研究比较成熟。

 

3.1.4 Structured Learning

结构学习。

固然还有其余更为复杂的问题,好比不少不少类型的分类问题。

 

3.2 Learning with Different Data Label

不一样的数据标记。

3.2.1 Supervised Learning

监督学习。

知道数据输入的同时还知道数据的标记。就至关于告诉你题目的同时还告诉你答案,让你在这种环境下学习,称之为监督学习(supervised learning)或者叫有师学习(learning with a teacher),以前讨论的一些算法都是这类问题。举个例子,硬币分类问题,如图3-2所示,其中横轴标示硬币的大小,纵轴标示硬币汇集的堆。

 

图3-2 有监督的多类别分类问题

 

其中这几种类别的硬币已经被各类不一样的颜色所标示好。

 

3.2.2 Unsupervised Learning

无监督学习。

这是一种没有标示(就是没有输出y)的问题,就是不告诉你题目的正确答案让你本身去寻找,再以硬币分类为例进行阐述,如图3-3所示。

 

图3-3 无监督的多类别分类问题

 

这种类型的问题最多见的是聚类或者叫分群(clustering),从图中不难看出无标示的难度比有标示的难度增长很多,并且极有可能犯错,可是这种问题却拥有普遍的应用场景(毕竟标示须要花费大量人力物力),如将新闻按照不一样的主题聚类,按用户的属性将用户聚成不一样类型的用户群等等。

除了聚类以外还有其余的无监督学习,如密度评估(density estimation)和离群点检测(outlier detection)等等。

 

3.2.3 Semi-supervised Learning

半监督学习。

是否能在监督式学习和无监督学习之间取一个中庸的方法呢?答案是能够的,就是半监督学习,它经过少许有标记的训练点和大量无标记的训练点达到学习的目的。仍是以硬币为例,如图3-4所示。这种类型的例子也有不少,好比图像的识别,不少状况下咱们不可能把每张图片都作上标记(由于作这种标记须要耗费大量的人力物力,是一种昂贵的行为),此时,使用半监督学习是一种不错的选择。

 

图3-4 半监督学习

 

3.2.4 Reinforcement Learning

强化学习。

前面三个是机器学习中最传统的三种方式,除此以外,还有一种方式是经过对一个行为做出奖励或者惩罚,以此得到的输出,进而进行学习,这种学习方式称之为强化学习。

通常能够表示为,其中向量仍是为输入向量,表示一种输出,注意并不必定是最佳输出,最后一项是对输出作出的评判。好比一个广告系统能够写成以下形式

 

3.3 Learning with Different Protocol

不一样方式获取数据。

对此节的内容进行简单阐述,在不一样的协议中能够将机器学习分为三大类:

  1. 批量(batch)学习就是将不少数据一次性的给算法进行学习,最多见的方式;
  2. 在线(online)学习就是一点一点将数据传输进去,如PLA和加强学习都适用于这种形式;
  3. 主动(active)学习是主动提出问题让算法解决,能够节省大量的训练和标记消耗。

     

3.4 Learning with Different Input Space

不一样的输入空间。

输入又能够称之为特征(features),其主要分为三种:

  1. 具体特征(Concrete Features),具体特征最大特色就是便于机器学习的处理,也是基础篇中主要讨论的情形。这种状况是人类或者机器经过必定的方式提取得到的,具备实用性。
  2. 原始特征(Raw Features),如图片的像素等等,是最为常见到的资料,可是须要通过处理,转换成具体特征,才容易使用,实用性不太大。
  3. 抽象特征(Abstract Features),如一些ID之类的看似无心义的数据,这就更须要特征的转换、提取等工做(相对于原始特征而言),几乎没有实用性。
相关文章
相关标签/搜索