机器学习简介

一.机器学习(machine learning)算法

1.它致力于研究如何经过计算的手段,利用经验来改善系统自身的性能机器学习

2.研究的主要内容是学习算法(learning algorithm)(在计算机上从数据中产生模型(model)或者说学习器(learner)的算法)性能

3.简而言之,机器学习:根据已有的经验(旧的数据),生成一个包含参数的学习模型,要求面对新的状况时(新的数据),该学习模型能表现良好学习

4.假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序经过利用经验 E 在 T 中任务上得到了性能改善,则咱们就说关于 T 和 P ,该程序对 E 进行了学习 测试

 

二.基本术语spa

1.关于数据对象

(1)特征向量(feature vector)、样本(sample)、示例(instance)、记录:对于一个事件或对象的描述事件

(2)数据集:记录的集合rem

(3)特征(feature)、属性(attribute):反映事件或对象在某方面的表现或性质的事项it

(4)属性空间、样本空间、输入空间:属性张成的空间

(5)例:D={(色泽=青绿,敲声=清脆),(色泽=浅白,根蒂=蜷缩)}表示一个关于西瓜的数据集,其中有两个样本,有三个属性,属性空间是以三个属性(色泽,根蒂,敲声)为三个坐标轴张成的三围空间

(6)标记(label):关于示例结果的信息,

(7)样例(example):拥有标记信息的示例

(8)输出空间、标记空间(label space):全部标记张成的空间 

(9)例:D={((色泽=青绿,敲声=清脆),好瓜),((色泽=浅白,根蒂=蜷缩),坏瓜)}表示一个关于西瓜的数据集,其中有两个样例,有三个属性,有两种标记,这两个标记的集合也被称为标记空间

2.关于训练:根据训练数据学习算法

(1)学习(learning)、训练(training):从数据中学的模型的过程,经过执行某个学习算法来完成,训练时对应有训练集,训练数据,训练样本

(2)假设(hypothesis):学的模型对应了关于数据的某种潜在规律

(3)真相、真实(ground-truth):潜在规律自身

3.关于预测:根据模型,测试新数据

(1)测试(testing):学的模型后,使用其进行预测的过程

(2)测试样本(testing sample)、测试示例、测试例:被预测的样本

 

三.机器学习的分类

1.监督学习(supervised learning):训练数据有标记信息

(1)分类:标记信息呈现离散状态

(2)回归:标记信息呈现的是连续值

2.无监督学习(unsupervised learning):训练数据无标记信息,给定一些数据,自动找出数据的结构

(1)聚类:自动对数据进行分类,手动给定类的标记

3.强化学习,推荐系统等 

 

四.机器学习的目标

1.使学得的模型能很好的适用于新样本,而不单单在训练样本上工做的很好

2.泛化(generalization)(从特殊到通常):学得模型的适用于新样本的能力

3.通常来讲,训练样本越多,获得的信息越多,越有可能获得强泛化能力的样本 

 

五.假设空间

1.概括学习:从具体的事实归结出通常性规律

2.机器学习是从样本中学习,显然是概括学习

3.假设空间:全部假设组成的空间,一般来讲特别大,好比三个属性分别有3,3,4种可能取值,则面临的假设空间规模为:4*4*5+1=81,(由于要加上∅)

4.版本空间:可能有多个假设与训练集一致,则存在一个与训练集一致的‘假设集合‘,称之为版本空间

 

六.概括偏好

1.概括偏好(inductive bias):机器学习算法在学习过程当中对某种类型假设的偏好

2.好比:存在多个模型能反映训练样本,可是他们对于新的样本却又不一样的输出,表示不一样模型对不一样假设的偏好

3.奥卡姆剃刀原则(Occam's razor):如有多个假设与观察一致,则选最简单的那个

4.‘没有免费的午饭’定理(No Free Lunch Theorem)(NFL):在全部问题同等重要的状况下,不管学习算法怎样,他们的指望性能相同

5.总结:要结合具体的问题,对比学习算法的性能,由于在某些问题上表现良好的学习算法,在其余问题上可能表现很糟糕

 

七.总结

1.问题描述:根据已有数据集,判断未知数据,

步骤

(1)得到训练数据集

(2)选取学习算法

(3)用学习算法来学习训练数据集,不断改进参数,得到最终模型

(4)对于给定的未知输入,在最终模型上获得输出

相关文章
相关标签/搜索