机器学习基本概念梳理

时间 2019-11-18

标签机器学习基本概念梳理繁體版

原文原文链接

1.1 基本术语

数据集（data set）：数据记录的集合算法

示例/样本（sample）：每条记录，即对一个事件/对象的描述机器学习

属性（attribute）/特征（feature）：反映时间或对象在某方面的表现或性质的事项ide

属性空间（attribute space）/样本空间（sample space）/输入空间：属性张成的空间函数

因为样本空间中每一点对应于一个坐标向量，所以一个示例也成为一个特征向量（feature vector）性能

学习（learning）/训练（training）：从数据中学习模型的过程学习

训练数据（training data）：训练过程当中使用的数据测试

训练集（training set）：训练样本组成的集合spa

假设（hypothesis）：学得的关于数据的某种潜在规律对象

真相/真实（ground-truth）：关于数据的某种潜在规律自身blog

标记空间（label space）/输出空间：标记的集合

测试（testing）：学得模型后，使用其进行预测的过程

测试样本（tesing sample）：被预测的样本

根据预测的值的类型，学习任务能够被划分为分类（classification），回归（regression），聚类（clustering），etc.

根据训练数据是否有标记，学习任务可被划分为监督学习（supervised learning）与无监督学习（unsupervised learning）

泛化（generalization）：学得模型适用于新样本的能力

独立同分布（independent and identically distributed, i.i.d.）：样本空间中全体样本服从一个未知分布（distribution）D，得到的每一个样本都是独立地从这个分布上采样得到

1.2 假设空间

能够将学习的过程当作在全部假设（hypothesis）组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”（fit）的假设。假设的表示一旦肯定，假设空间的大小就肯定了。

假设空间的搜索策略：自顶向下、从通常到特殊、自底向上、从特殊到通常，etc.

现实问题中，可能有多个假设与训练集一致，即存在一个与训练集一致的“假设空间”，称之为“版本空间”（version space）。

1.3 概括偏好

概括偏好（inductive bias）：机器学习算法在学习过程当中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其概括偏好，不然它将被假设空间中看似在训练集上“等效”的假设所迷惑，而没法产生肯定的学习结果。算法的概括偏好是否与问题自己匹配，大多数时候直接决定了算法是否取得好的性能。

不存在引导算法确立正确“偏好”的通常性的原则。事实上，对于一个学习算法ζ_a，若它在某些问题上比学习算法ζ_b好，则必然存在另外一些问题，使得在那里ζ_b比ζ_a好。此结论能够由以下讨论得出：

假设样本空间X和假设空间H都是离散的。令P(h|X, ζ_a)表明算法ζ_a基于训练数据X产生假设h的几率，再令f表明咱们但愿学习的真实目标函数。ζ_a的“训练集外偏差”，即ζ_a在训练集外的全部样本上的偏差为

其中是指示函数，若•为真则取1，不然取值0。

考虑二分问题，且真实目标函数能够是任何函数X→{0,1}，函数空间为{0,1}^|X|。对全部可能的f，按均匀偏差求和，有

上式代表，总偏差与学习算法无关。对于任意两个学习算法ζ_a和ζ_b，都有

这就是NFL定理（No Free LunchTheorem, Wolpert and Macready, 1995）。固然，其前提是全部“问题”出现的概率相同，但实际情形并不是如此。不少时候，咱们只关注本身正在试图解决的问题。NFL的寓意，是让咱们意识到，脱离具体问题，空泛谈论“什么学习算法好”毫无心义。而针对具体问题，学习算法自身的概括偏好与问题是否匹配，每每会起决定性做用。