1、引言算法
机器学习致力于研究如何经过计算的手段,利用经验来改善系统自身的性能。机器学习
在计算机系统中,“经验”一般以“数据”的形式存在,所以,机器学习所研究的主要内容,是关于在计算机上从数据中产生的“模型”的算法,即“学习算法”。有了学习算法,咱们就把经验数据提供给它,它就能基于这些数据产生模型,在面对新的状况时,模型会给咱们提供相应的判性能
2、基本术语 学习
一、属性:反映事件或对象在某方面的表现或性质的事项测试
二、属性值:属性的取值spa
三、属性空间:属性张成的空间对象
四、特征向量:空间中每一个点的坐标向量blog
五、标记:关于示例结果的信息事件
六、样例:拥有了标记信息的示例io
七、数据集:全部样例组成的集合
八、学习:从数据中学得模型的过程
九、训练集:训练样本组成的集合
十、真相(ground-truth):数据的潜在的某种规律
十一、测试:学得模型后,使用其进行预测得过程
十二、测试集:测试样本组成得集合
1三、泛化能力:学得模型应用新样本的能力。
举例:
咱们已经知道了,机器学习是利用数据,从数据中概括出规律,并用来对新事物进行预测。因此,机器学习首先要有数据,假设咱们收集了一份关于西瓜的数据:
咱们把数据中的每一行称为一个示例或样本;
反映事件或对象在某方面的表现或性质的事项,如:色泽、根蒂、敲声,称为属性或特征;
属性上的取值,例如:青绿、乌黑。称为属性值或特征值;
属性值造成的集合称为属性空间;
咱们把一个示例(样本)称为一个特征向量。
通常地,令 D={x1 , x2 , .. , xm } 表示包含 m 个示例的数据集,每一个示例由 d 个属性描述(例如上面的西瓜数据使用了三个属性),则每一个示例:
xi = ( xi1; xi2 ...; xid )
是 d 维样本空间X中的一个向量,xi∈X,其中 xij 是xi在第 j 个属性上的取值。d 称为样本xi 的维数。
有了数据后,机器就能够从数据中进行学习。从数据中学得模型的过程称为“学习”或“训练”,这个过程经过执行某个学习算法来完成。
训练过程当中使用的数据称为“训练数据”,其中每一个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”,学习过程就是为了找出或逼近真相。
数据分为训练集和测试集,在测试集上的表现称为泛化能力。在评估泛化能力,一般比较预测值与真实值。
根据数据是否有标签,能够将机器学习方法分为有监督方法和无监督方法。
若是数据有标签,则为有监督方法。有监督方法的两大类任务,一个是回归,一个是分类。若是标签为连续值,它就是一个回归任务。若是标签数据是离散值,那就是一个分类任务。
若是数据没有标签,就属于无监督方法,聚类是一种典型无监督学习方法。俗话说“物以类聚、人以群分”,聚类算法就是将数据划分红不一样的组,组内的样本具备很强的类似性,组间的样本具备很强的差别性。
3、假设空间
1四、概括:特殊到通常的泛化过程
1五、演绎:从通常的特殊的特化过程
1六、概念学习:要求从训练数据学得概念。
1七、布尔概念学习:对是、不是这样的能够表示成0/1布尔值的目标概念学习。
假设空间在已知属性和属性可能取值的状况下,对全部可能知足目标的状况的一种毫无遗漏的假设集合。
概括和演绎是推理的两大手段,概括是特殊到通常的泛化过程,即从具体的事实归结出通常性的规律,演绎是从通常到特殊的特化过程。
从样例中学习的过程很显然是一个概括的过程,所以也成为概括学习。概括学习有狭义和广义之分,广义的概括学习大体至关于从样例中学习,而狭义的概括学习则要求从训练数据中学的概念(concept),所以亦称为“概念学习”或“概念造成”。
概念学习最基本的形式是布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。
举例:
学习得“好瓜”这样一个概念能够用一个布尔表达式进行表示:
问号表示还没有肯定的取值,咱们学习目标为“好瓜”,经过学习,将这些问号肯定下来,肯定问号的取值就是学习的过程。
学习的过程能够看做一个在全部假设组成的空间中进行搜索的过程。搜索目标是找到与训练集“匹配”的假设,即可以将训练集中的瓜判断正确的假设。除此还有一种取值用通配符*表示,表示不管取什么值都合适。空集符号表示一种极端的概念,也许世界上根本不存在好瓜。假设的表示一旦肯定,假设空间及其规模大小就肯定了。
举个例子,假设西瓜的好坏由“色泽”,“根蒂”以及“敲声”决定,且"色泽"、"根蒂"和"敲声"分别有三、三、3 种可能取值。
假设空间的大小即为:(3+1)*(3+1)*(3+1)+1=65
能够有许多策略对这个假设空间进行搜索,例如自顶向下、从通常到特殊,或是自底向上、从特殊到通常,搜索过程当中能够不断删除与正例不同的假设、和(或)与反例一致的假设。最终将会得到与训练集一致(即对全部训练样本可以进行正确判断)的假设,这就是咱们学得的结果。
现实问题中咱们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,所以,可能有多个假设和训练集一致,即存在着一个与训练集一致的“假设集合”,咱们称之为“版本空间”(version space)。
版本空间构建过程:对假设空间进行搜索,能够自顶向下(通常到特殊),也能够自底向上(特殊到通常),在搜索过程当中只保留与训练集正例一致的假设。
分析:
新瓜:(色泽=青绿,根蒂=蜷缩,敲声=沉闷),
(1)对于假设 (色泽=*) ⋀ (根蒂=蜷缩) ⋀ (敲声=*),判断好瓜
(2)对于假设(色泽=*) ⋀ (根蒂=蜷缩) ⋀ (敲声=浊响),判断坏瓜。
4、概括偏好
概括偏好(简称"偏好"):机器学习算法在学习过程当中对某种类型假设的偏好。说白了就是“什么样的模型更好”这一问题。
概括偏好可看做学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。而在具体的现实问题中,学习算法自己所作的假设是否成立,也即算法的概括偏好是否与问题自己匹配,大多数时候直接决定了算法可否取得好的性能。
“奥卡姆剃刀”(Occam's razor):是一种经常使用的、天然科学研究中最基本的原则,即“如有多个假设与观察一致,则选最简单的那个”。
没有免费的午饭定理(NFL):不管一个算法多么笨拙,不管一个算法多么聪明,他们的指望性能相同。脱离具体问题,空泛谈论“什么学习算法更好”毫无心义。