数据集:关系型数据库中有不少表,表里面有不少记录,不少记录就能够认为是数据集算法
属性(特征):一个表中有不少条记录,每条记录的表有不少属性,如tb_stu(stu_id,stuname,stu_sex)s表中有3条属性数据库
属性值:属性的取值,如stu_id能够等于1,2.3....n。stu_sex能够为男,也能够为女。机器学习
特征向量:咱们能够将属性的组合投影到三维空间,用几何和代数的工具来表示他们。如三个属性,能够头影城三维空间。每一个属性有不少取值,无论三个属性取值如何组合,都会在这个三维空间中。其中三维空间的一个点,咱们称为特征向量。ide
训练:从所用的数据学的模型的过程称为学习,或训练,如100个数据集,使用80个来训练。工具
概括:数学概括法,当n=1,时,f(1)=.... 当n=2时,f(2)=.. 求出通项公式,从具体到通常性的规律学习
演绎:从基础原理推演出具体情况,有通常推到出具体,共性===》个体。spa
假设空间:就是根据属性的取值的组合,构成一个假设空间。色泽=,根蒂=,敲声=,结果是好瓜数学
色泽有4中状况,根蒂有4中,敲声有4种,3中基本的,还有一种*构成4种,构成空间为4*4*4+1(这个本身理解)=65it
假设:学得模型对应了关于数据的某种潜在的规律,称为假设。(一时不理解很正常,后续会讲清楚)假设就是从假设空间中进行搜索与删除和正例和反例不一致的假设,最终与得到训练集一致的假设。这就是咱们学的结果。class
概括偏好:若咱们的算法喜欢尽量特殊的模型,则它会选择好瓜<=>(色泽=*)^(根蒂=蜷缩)^(敲声=浊响),但咱们的算法有通常的模型好瓜<=>(色泽=*)^(根蒂=蜷缩)^(敲声=*),机器学习算法在学习过程当中对某种类型假设的偏好,称为概括偏好。
样例(示例):训练样本包含结果信息如(色泽=青绿,根蒂=蜷缩,敲声=浊响,结果是好瓜),拥有结果是好瓜,拥有了标记信息,这样一个训练数据样本,就是样例。通常用(xi,yi)来表示第i个样本,
yi属于Y(Y是全部标记集合,或称为输出空间,标记空间)
预测:就是对训练的建成模型,而后对没有训练的数据进行预测。输入变量和输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题。
根据训练数据是否拥有标记信息,学习的任务能够大体分为两大类:监督学习和无监督学习。
分类和回归都是监督学习,都包含样例。
聚类是后者的表明。
泛化:训练模型适用于新样本的能力称为泛化能力。