机器学习之初步概念

基本概念

机器学习的前提是数据,咱们把数据的集合称为数据集'data set',每条记录是一个样本(sample),每一个样本有若干个属性(attribute)or特征(feature),对应的是其属性值(attribute value),属性组成的空间称做属性空间(attribute space),所以每一个sample能够被称做一个特征向量(feature vector).属性个数称为样本的维数。
从数据中学习模型的过程被称为学习(learning)或训练(traning),训练时使用的数据称为训练集。咱们还须要训练样本的“结果”信息:标记"label",拥有了标记信息的"sample",被称做“样例”(example)。全部标记的集合被称做“标记空间”(label space)或输出空间。
对于预测离散值问题,称做“分类”(classification),若是预测离散值,称做“回归”(regression)。
学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为预测样本(testing sample)
根据训练数据是否含有标记信息,学习任务能够被划分为两大类监督学习(supervised learning)无监督学习(unsupervised learning),分类和回归是前者表明,聚类是后者表明。
学得模型适用于新样本的能力,称为泛化(generalization)能力,具备强泛化能力的模型能很好的适用于整个样本空间。
独立同分布:一般假设样本空间中全体样本服从一个未知分布(distribution)D,我咱们获取的每一个样本都是独立的从这个分布上采样得到的。机器学习

模型评估和选择

学习器的实际预测输出与样本的真实输出之间的差别称为“偏差(error)”,学习器在训练集上的偏差称为训练偏差(training error)or经验偏差(empirical error),在新样本上的偏差称为泛化偏差(generalization error)
过拟合:学习器把训练集学得太好了,极可能把训练样本的一些特色当作了全部潜在样本都会具备的一些性质,致使泛化性能降低,称为过拟合(overfitting),相对的是欠拟合(underfitting)性能

参考书目:机器学习学习

相关文章
相关标签/搜索