数据集 (data set): 数据的集合算法
示例(instance)、 样本(sample): 数据集中的每条记录,用于描述某一事件或对象,就是示例学习
特征(feature)、属性(attribute):反应事件或对象在某一方面的表现或性质的事项,其值为特征值(属性值)测试
属性空间、样本空间或输入空间: 属性张成的空间对象
咱们把一个示例称为一个特征向量(feature vector)blog
D={X1,X2,X3...Xm} 表示包含m个示例的数据集事件
样本x有d个属性,则d称为样本x的'维数'io
学习(learing)、训练(training) : 从数据中学的模型的过程,这个过程一般是使用某个算法来完成的。class
训练集(training set): 训练过程当中使用的数据,其中每个样本称为训练样本(training sample)test
学得模型对应了关于数据潜在的某种规律,称为假设(hypothesis),这种潜在规律自身,称为真相或真实im
标记(label):关于实例的结果信息,拥有标记信息的示例,称为样例(example)
分类(classifcation):预测的是离散值
回归(regression):预测的是连续值
涉及两个类别的分类,就是二分类(binary classifcation)
涉及多个类别的分类,就是多分类(multi-class classifcation)
测试(testing): 学得模型后,使用其进行预测的过程
测试样本(testing sample):被用来预测的样本
泛化(generalization)能力:学得模型适用于新样本的能力