机器学习简介

时间 2019-11-10

标签机器学习简介繁體版

原文原文链接

一.机器学习（machine learning）算法

1.它致力于研究如何经过计算的手段，利用经验来改善系统自身的性能机器学习

2.研究的主要内容是学习算法（learning algorithm）（在计算机上从数据中产生模型（model）或者说学习器（learner）的算法）性能

3.简而言之，机器学习：根据已有的经验（旧的数据），生成一个包含参数的学习模型，要求面对新的状况时（新的数据），该学习模型能表现良好学习

4.假设用 P 来评估计算机程序在某任务类 T 上的性能，若一个程序经过利用经验 E 在 T 中任务上得到了性能改善，则咱们就说关于 T 和 P ,该程序对 E 进行了学习测试

二.基本术语spa

1.关于数据对象

（1）特征向量（feature vector）、样本（sample）、示例（instance）、记录：对于一个事件或对象的描述事件

（2）数据集：记录的集合rem

（3）特征（feature）、属性（attribute）：反映事件或对象在某方面的表现或性质的事项it

（4）属性空间、样本空间、输入空间：属性张成的空间

（5）例：D={（色泽=青绿，敲声=清脆），（色泽=浅白，根蒂=蜷缩）}表示一个关于西瓜的数据集，其中有两个样本，有三个属性，属性空间是以三个属性（色泽，根蒂，敲声）为三个坐标轴张成的三围空间

（6）标记（label）：关于示例结果的信息，

（7）样例（example）：拥有标记信息的示例

（8）输出空间、标记空间（label space）：全部标记张成的空间

（9）例：D={（（色泽=青绿，敲声=清脆），好瓜），（（色泽=浅白，根蒂=蜷缩），坏瓜）}表示一个关于西瓜的数据集，其中有两个样例，有三个属性，有两种标记，这两个标记的集合也被称为标记空间

2.关于训练：根据训练数据学习算法

（1）学习（learning）、训练（training）：从数据中学的模型的过程，经过执行某个学习算法来完成，训练时对应有训练集，训练数据，训练样本

（2）假设（hypothesis）：学的模型对应了关于数据的某种潜在规律

（3）真相、真实（ground-truth）：潜在规律自身

3.关于预测：根据模型，测试新数据

（1）测试（testing）：学的模型后，使用其进行预测的过程

（2）测试样本（testing sample）、测试示例、测试例：被预测的样本

三.机器学习的分类

1.监督学习（supervised learning）:训练数据有标记信息

（1）分类：标记信息呈现离散状态

（2）回归：标记信息呈现的是连续值

2.无监督学习（unsupervised learning）：训练数据无标记信息，给定一些数据，自动找出数据的结构

（1）聚类：自动对数据进行分类，手动给定类的标记

3.强化学习，推荐系统等

四.机器学习的目标

1.使学得的模型能很好的适用于新样本，而不单单在训练样本上工做的很好

2.泛化（generalization）（从特殊到通常）：学得模型的适用于新样本的能力

3.通常来讲，训练样本越多，获得的信息越多，越有可能获得强泛化能力的样本

五.假设空间

1.概括学习：从具体的事实归结出通常性规律

2.机器学习是从样本中学习，显然是概括学习

3.假设空间：全部假设组成的空间，一般来讲特别大，好比三个属性分别有3,3,4种可能取值，则面临的假设空间规模为：4*4*5+1=81，（由于要加上∅）

4.版本空间：可能有多个假设与训练集一致，则存在一个与训练集一致的‘假设集合‘，称之为版本空间

六.概括偏好

1.概括偏好（inductive bias）：机器学习算法在学习过程当中对某种类型假设的偏好

2.好比：存在多个模型能反映训练样本，可是他们对于新的样本却又不一样的输出，表示不一样模型对不一样假设的偏好

3.奥卡姆剃刀原则（Occam's razor）:如有多个假设与观察一致，则选最简单的那个

4.‘没有免费的午饭’定理（No Free Lunch Theorem）(NFL)：在全部问题同等重要的状况下，不管学习算法怎样，他们的指望性能相同

5.总结：要结合具体的问题，对比学习算法的性能，由于在某些问题上表现良好的学习算法，在其余问题上可能表现很糟糕

七.总结

1.问题描述：根据已有数据集，判断未知数据，

步骤

（1）得到训练数据集

（2）选取学习算法

（3）用学习算法来学习训练数据集，不断改进参数，得到最终模型

（4）对于给定的未知输入，在最终模型上获得输出