一.机器学习(machine learning)算法
1.它致力于研究如何经过计算的手段,利用经验来改善系统自身的性能机器学习
2.研究的主要内容是学习算法(learning algorithm)(在计算机上从数据中产生模型(model)或者说学习器(learner)的算法)性能
3.简而言之,机器学习:根据已有的经验(旧的数据),生成一个包含参数的学习模型,要求面对新的状况时(新的数据),该学习模型能表现良好学习
4.假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序经过利用经验 E 在 T 中任务上得到了性能改善,则咱们就说关于 T 和 P ,该程序对 E 进行了学习 测试
二.基本术语spa
1.关于数据对象
(1)特征向量(feature vector)、样本(sample)、示例(instance)、记录:对于一个事件或对象的描述事件
(2)数据集:记录的集合rem
(3)特征(feature)、属性(attribute):反映事件或对象在某方面的表现或性质的事项it
(4)属性空间、样本空间、输入空间:属性张成的空间
(5)例:D={(色泽=青绿,敲声=清脆),(色泽=浅白,根蒂=蜷缩)}表示一个关于西瓜的数据集,其中有两个样本,有三个属性,属性空间是以三个属性(色泽,根蒂,敲声)为三个坐标轴张成的三围空间
(6)标记(label):关于示例结果的信息,
(7)样例(example):拥有标记信息的示例
(8)输出空间、标记空间(label space):全部标记张成的空间
(9)例:D={((色泽=青绿,敲声=清脆),好瓜),((色泽=浅白,根蒂=蜷缩),坏瓜)}表示一个关于西瓜的数据集,其中有两个样例,有三个属性,有两种标记,这两个标记的集合也被称为标记空间
2.关于训练:根据训练数据学习算法
(1)学习(learning)、训练(training):从数据中学的模型的过程,经过执行某个学习算法来完成,训练时对应有训练集,训练数据,训练样本
(2)假设(hypothesis):学的模型对应了关于数据的某种潜在规律
(3)真相、真实(ground-truth):潜在规律自身
3.关于预测:根据模型,测试新数据
(1)测试(testing):学的模型后,使用其进行预测的过程
(2)测试样本(testing sample)、测试示例、测试例:被预测的样本
三.机器学习的分类
1.监督学习(supervised learning):训练数据有标记信息
(1)分类:标记信息呈现离散状态
(2)回归:标记信息呈现的是连续值
2.无监督学习(unsupervised learning):训练数据无标记信息,给定一些数据,自动找出数据的结构
(1)聚类:自动对数据进行分类,手动给定类的标记
3.强化学习,推荐系统等
四.机器学习的目标
1.使学得的模型能很好的适用于新样本,而不单单在训练样本上工做的很好
2.泛化(generalization)(从特殊到通常):学得模型的适用于新样本的能力
3.通常来讲,训练样本越多,获得的信息越多,越有可能获得强泛化能力的样本
五.假设空间
1.概括学习:从具体的事实归结出通常性规律
2.机器学习是从样本中学习,显然是概括学习
3.假设空间:全部假设组成的空间,一般来讲特别大,好比三个属性分别有3,3,4种可能取值,则面临的假设空间规模为:4*4*5+1=81,(由于要加上∅)
4.版本空间:可能有多个假设与训练集一致,则存在一个与训练集一致的‘假设集合‘,称之为版本空间
六.概括偏好
1.概括偏好(inductive bias):机器学习算法在学习过程当中对某种类型假设的偏好
2.好比:存在多个模型能反映训练样本,可是他们对于新的样本却又不一样的输出,表示不一样模型对不一样假设的偏好
3.奥卡姆剃刀原则(Occam's razor):如有多个假设与观察一致,则选最简单的那个
4.‘没有免费的午饭’定理(No Free Lunch Theorem)(NFL):在全部问题同等重要的状况下,不管学习算法怎样,他们的指望性能相同
5.总结:要结合具体的问题,对比学习算法的性能,由于在某些问题上表现良好的学习算法,在其余问题上可能表现很糟糕
七.总结
1.问题描述:根据已有数据集,判断未知数据,
步骤
(1)得到训练数据集
(2)选取学习算法
(3)用学习算法来学习训练数据集,不断改进参数,得到最终模型
(4)对于给定的未知输入,在最终模型上获得输出