机器学习系列(一)--术语篇

时间 2019-11-12

标签机器学习系列术语繁體版

原文原文链接

机器学习的术语：算法

机器学习正是这样一门学科，它致力于研究如何经过计算的手段，利用经验来改善系统自身的性能.在计算机系统中，“经验”一般以“数据”形式存在，所以，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”（model)的算法，即“学习算法”（learning algorithm).有了学习算法，咱们把经验数据提供给它，它就能基于这些数据产生模型；在面对新的状况时(例如看到一个没剖开的西瓜)，模型会给咱们提供相应的判断(例如好瓜).若是说计算机科学是研究关于“算法”的学问，那么相似的，能够说机器学习是研究关于“学习算法”的学问。bootstrap

基本术语：

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍蜷	沉闷	否

数据集（data set）

这组记录的集合称为一个数据集（data set）安全

示例”（instance)、样本”（sample)

其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述，称为一个“示例”（instance)或“样本”（sample).有时整个数据集亦称一个“样本”，由于它可看做对样本空间的一个采样; 经过上下文可判断出“样本”是指单个示例仍是数据集。网络

属性（attribute）、特征（feature）

反映事件或对象在某方面的表现或性质的事项，例如“色泽” “根蒂”“敲声”，称为“属性”（attribute)或“特征”（feature).app

属性值（attribute value）

属性上的取值，例如“青绿”“乌黑”，称为“属性值”（attribute value)“.机器学习

“属性空间”（attribute space)、“样本空间”（sample space)或“输入空间”

属性合成的空间称为“属性空间”（attribute space)、“样本空间”（sample space)或“输入空间”ide

特征向量（feature vector）

例如咱们把“色泽” “根蒂” “敲声”做为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每一个西瓜均可在这个空间中找到本身的坐标位置.因为空间中的每一个点对应一个坐标向量，所以咱们也把一个示例称为一个 “特征向量”（feature vector).函数

维数（dimensionality）

通常地，令* D * = { $x_{1}$ 性能

学习、训练、训练数据、训练样本、训练集、假设、真相、真实、学习器

从数据中学得模型的过程称为“学习”（learning)或“训练”（training), 这个过程经过执行某个学习算法来完成.训练过程当中使用的数据称为“训练数据”（training data)，其中每一个样本称为一个“训练样本”（training sample), 训练样本组成的集合称为“训练集”（training set).学得模型对应了关于数据的某种潜在的规律，所以亦称假设”（hypothesis);这种潜在规律自身，则称为“真相”或“真实” (ground-tmth),学习过程就是为了找出或逼近真相.有时将模型称为“学习器”（learner),可看做学习算法在给定数据和参数空间上的实例化.学习

“训练示例” （training instance)、“训练例”

训练样本亦称“训练示例” （training instance)或“训练例”.

预测、标记、样例、标记空间、输出空间

学习算法一般有参数需设置，使用不一样的参数值和(或)训练数据，将产生不一样的结果.

若是但愿学得一个能帮助咱们判断没剖开的是否是“好瓜”的模型，仅有前面的示例数据显然是不够的.要创建这样的关于“预测”（prediction)的模型，咱们需得到训练样本的“结果”信息，例如“((色泽=青绿;根蒂=蜷缩; 敲声=浊响)，好瓜这里关于示例结果的信息，例如“好瓜”，称为“标记”（label);拥有了标记信息的示例，则称为“样例”（example).—般地，用( $x_{i}$

将“label”译为“标记”而非“标签”，是考虑到英文中“label”既可用做名词、也可用做动词.若将标记看做对象自己的一部分，则“样例”有时也称为“样本”.

分类、回归、二分类、正类、反类、多分类

若咱们欲预测的是离散值，例如“好瓜”“坏瓜”，此类学习任务称为“分类”（classification);若欲预测的是连续值，例如西瓜成熟度0.9五、0.37, 此类学习任务称为“回归”（regression).对只涉及两个类别的“二分类”（binary classification)任务，一般称其中一个类为“正类”（positive class), 另外一个类为“反类'(negative class);涉及多个类别时，则称为“多分类”（multi-class classification)任务.通常地，预测任务是但愿经过对训练集{( $x_{1}, y_{1}$

Note:

学得模型后，使用其进行预测的过程称为“测试”（testing)，被预测的样本称为“测试样本”（testing sample).例如在学得 $f$ 亦称“测试示例”（testing instance）或“测试例”

聚类、簇

咱们还能够对西瓜作“聚类”（clustering)，即将训练集中的西瓜分红若干组，每组称为一个“簇”（cluster);这些自动造成的簇可能对应一些潜在的概念划分，例如“浅色瓜”“深色瓜”，甚至“本地瓜”“外地瓜”.这样的学习过程有助于咱们了解数据内在的规律，能为吏深刻地分析数据创建基础.需说明的是，在聚类学习中，“浅色瓜” “本地瓜”这样的概念咱们事先是不知道的，并且学习过程当中使用的训练样本一般不拥有标记信息.

监督学习、无监督学习

根据训练数据是否拥有标记信息，学习任务可大体划分为两大类：“监督学习 ”（supervised learning)和“无监督学习 ”（unsupervised learning),分类和回归是前者的表明，而聚类则是后者的表明.

亦称“有导师学习”和“无导师学习”

泛化能力

需注意的是，机器学习的目标是使学得的模型能很好地适用于“新样本”, 而不是仅仅在训练样本上工做得很好；即使对聚类这样的无监督学习任务，咱们也但愿学得的簇划分能适用于没在训练集中出现的样本.学得模型适用于新样本的能力，称为“泛化”（generalization)能力.具备强泛化能力的模型能很好地适用于整个样本空间.因而，尽管训练集一般只是样本空间的一个很小的采样，咱们仍但愿它能很好地反映出样本空间的特性，不然就很难指望在训练集上学得的模型能在整个样本空间上都工做得很好.一般假设样本空间中全体样本服从一个未知“分布”（distribution) $D$

$D$

假设空间

概括(induction)与演绎(deduction)是科学推理的两大基本手段。前者是从特殊到通常的“泛化”（generalization)过程，即从具体的事实归结出通常性规律；后者则是从通常到特殊的“特化”（specialization)过程，即从基础原理推演出具体情况.例如，在数学公理系统中，基于一组公理和推理规则推导出与之相洽的定理，这是演绎;而“从样例中学习”显然是一个概括的过程，所以亦称 “概括学习 ”（inductive learning) 。

概括学习有狭义与广义之分，广义的概括学习大致至关于从样例中学习，而狭义的概括学习则要求从训练数据中学得概念(concept)，所以亦称为“概念学习”或“概念造成”.概念学习技术目前研究、应用都比较少，由于要学得泛化性能好且语义明确的概念实在太困难了，现实经常使用的技术大可能是产生“黑箱”模型.然而，对概念学习有所了解，有助于理解机器学习的一些基础思想.

概念学习中最基本的是布尔概念学习，即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍蜷	沉闷	否

(色泽=?)⋀(根蒂=?)⋀(敲声=?)↔好瓜

学习过程⟶⟶ 在全部假设(hypothesis)组成的空间中进行搜索的过程

目标: 找到与训练集“匹配”(fit)的假设

以西瓜问题假设为例。色泽属性可取（青绿，乌黑，浅白，* ），根蒂属性可取（蜷缩，稍蜷，硬挺，* ），敲声属性可取（浊响，清脆，沉闷，* ），以及好瓜假设不存在( $ϕ$

$ϕ$

版本空间

能够有许多策略对这个假设空间进行搜索，例如自顶向下、从通常到特殊，或是自底向上、从特殊到通常，搜索过程当中能够不断删除与正例不一致的假设、和(或)与反例一致的假设.最终将会得到与训练集一致(即对全部训练样本可以进行正确判断)的假设，这就是咱们学得的结果.

需注意的是，现实问题中咱们常面临很大的假设空间，但学习过程是基于有限样本训练集进行的，所以，可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”，咱们称之为“版本空间”（version space)

概括偏好

经过学习获得的模型对应了假设空间中的一个假设.因而，上面西瓜版本空间给咱们带来一个麻烦：如今有三个与训练集一致的假设，但与它们对应的模型在面临新样本的时候，却会产生不一样的输出.例如，对(色泽=青绿; 根蒂=蜷缩；敲声=沉闷)这个新收来的瓜，若是咱们采用的是“好瓜 $⟷$

若仅有以上的训练样本，则没法判定上述三个假设中哪个“更好”. 然而，对于一个具体的学习算法而言，它必需要产生一个模型.这时，学习算法自己的“偏好”就会起到关键的做用.例如，若咱们的算法喜欢“尽量特殊”的模型，则它会选择“好瓜 $⟷$

奥卡姆剃刀”（Occam’s razor)是一种经常使用的、天然科学研究中最基本的原则，即“如有多个假设与观察一致，则选最简单的那个”.若是采用这个原则，而且假设咱们认为“更平滑”意味着“更简单”（例如曲线 A更易于描述，其方程式是 $y = - x^{2} + 6 x + 1$

No Free Lunch Theoren 定理，没有免费的午饭定理，简称NFL定理，由美国斯坦福大学的Wolpert和Macready教授提出。

NFL定理：一个算法A若在某些问题上比另外一个算法B好，必存在另外一些问题B比A好

为简单起见，假设样本空间 $X$

$E_{o t e} (L_{a} | X, f) = \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

其中 $I (\cdot)$

考虑二分类问题，且真实目标函数能够是任何函数 $x ⟼ 0, 1$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \sum_{f} I (h (x) \neq f (x))$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \frac{1}{2} 2^{| x |}$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a})$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \cdot 1$

上式显示出，总偏差和学习算法无关！对于任意两个学习算法 $L_{a}$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} E_{o t e} (L_{b} | X, f)$

也就是说，不管学习算法 $L_{a}$

总结

NFL定理有一个重要前提：全部“问题”出现的机会相同、或全部问题同等重要.但实际情形并非这样.不少时候，咱们只关注本身正在试图解决的问题(例如某个具体应用任务)，但愿为它找到一个解决方案，至于这个解决方案在别的问题、甚至在类似的问题上是否为好方案，咱们并不关心.例如，为了快速从A地到达B地，若是咱们正在考虑的A地是南京鼓楼、B地是南京新街口，那么“骑自行车”是很好的解决方案；这个方案对A 地是南京鼓楼、B地是北京新街口的情形显然很糟糕，但咱们对此并不关心.

NFL定理最重要的寓意，是让咱们清楚地认识到，脱离具体问题，空泛地谈论“什么学习算法更好”毫无心义，由于若考虑全部潜在的问题，则全部学习算法都同样好.要谈论算法的相对优劣，必需要针对具体的学习问题；在某些问题上表现好的学习算法，在另外一些问题上却可能不尽如人意，学习算法自身的概括偏好与问题是否相配，每每会起到决定性的做用.

经验偏差和过拟合

一般咱们把分类错误的样本数占样本总数的比例称为“错误率”（error rate),即若是在m个样本中有a个样本分类错误，则错误率 $E$

咱们实际但愿的，是在新样本上能表现得很好的学习器.为了达到这个目的，应该从训练样本中尽量学出适用于全部潜在样本的“广泛规律”，这样才能在遇到新样本时作出正确的判别.然而,当学习器把训练样本学得“太好”了的时候，极可能已经把训练样本自身的一些特色当作了全部潜在样本都会具备的通常性质，这样就会致使泛化性能降低。这种现象在机器学习中称为 “过拟合”（overfitting).与“过拟合”相对的是“欠拟合”（underfitting),这是指对训练样本的通常性质还没有学好。

总结

有多种因素可能致使过拟合，其中最多见的状况是因为学习能力过于强大,以致于把训练样本所包含的不太通常的特性都学到了，而欠拟合则一般是因为学习能力低下而形成的.欠拟合比较容易克服，例如在决策树学习中扩展分支、在神经网络学习中増加训练轮数等，而过拟合则很麻烦.在后面的学习中咱们将看到，过拟合是机器学习面临的关键障碍，各种学习算法都必然带有一些针对过拟合的措施;然而必须认识到，过拟合是没法完全避免的，咱们所能作的只是“缓解”，或者说减少其风险.

在现实任务中，咱们每每有多种学习算法可供选择，甚至对同一个学习算法，当使用不一样的参数配置时，也会产生不一样的模型.那么，咱们该选用哪个学习算法、使用哪种参数配置呢？这就是机器学习中的“模型选择”（model selection)问题.理想的解决方案固然是对候选模型的泛化偏差进行评估，而后选择泛化偏差最小的那个模型.然而如上面所讨论的，咱们没法直接得到泛化偏差，而训练偏差又因为过拟合现象的存在而不适合做为标准，那么，在现实中如何进行模型评估与选择呢？

如何得到测试结果？ ⟹⟹ 评估方法

如何评估性能优劣？ ⟹⟹ 性能度量

如何判断实质差异？ ⟹⟹ 比较检验

评估方法

测试集应该与训练集“互斥”

留出法 (hold-out)
交叉验证法 (cross validation)
自助法 (bootstrap)

留出法

留出法（hold-out)直接将数据集D划分为两个互斥的集合，其中一个集合S做为训练集另外一个做为测试集T,即 $D = S \cup T$

交叉验证法

“交叉验证法”（cross validation)先将数据集 $D$

假定数据集 $D$

扩展

咱们但愿评估的是用𝐷D训练出的模型.但在留出法和交叉验证法中，因为保留了一部分样本用于测试，所以实际评估的模型所使用的训练集比D小，这必然会引入一些因训练样本规模不一样而致使的估计误差.留一法受训练样本规模变化的影响较小，但计算复杂度又过高了.有没有什么办法能够减小训练样本规模不一样形成的影响，同时还能比较高效地进行实验估计呢？

自助法

“自助法”（bootstrapping)是一个比较好的解决方案，它直接以自助采样法(bootstrap sampling)为基础[Efron and Tibshirani, 1993].给定包含m个样本的数据集 $D$

$lim_{m \to \infty} (1 - \frac{1}{m})^{m} ⟶ \frac{1}{e} \approx 0.368$

即经过自助釆样，初始数据集乃中约有36.8%的样本未出如今釆样数据集 $D^{'}$

自助法在数据集较小、难以有效划分训练/测试集时颇有用;此外，自助法能从初始数据集中产生多个不一样的训练集，这对集成学习等方法有很大的好处. 然而，自助法产生的数据集改变了初始数据集的分布，这会引入估计误差.所以,在初始数据量足够时，留出法和交叉验证法更经常使用一些.

性能度量

对学习器的泛化性能进行评估，不只须要有效可的实验估计方法，还须要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure).性能度量反映了任务需求，在对比不一样模型的能力时，使用不一样的性能度量往往会致使不一样的评判结果；这意味着模型的“好坏”是相对的，什么样的模型是好的，不只取决于算法和数据，还决定于任务需求.

在预测任务中，给定样例集 $D = (x_{1} ， y_{1}), (x_{2}, y_{2}), \dots, (x_{m} . y_{m})$

回归任务最经常使用的性能度量是“均方偏差”（mean squared error)

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$

对于数据分布 $D$

$E (f; D) = \int_{x \sim D} （ f (x) - y ）^{2} p (x) d x$

错误率是分类错误的样本数占样本总数的比例

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) \neq y_{i})$

精度则是分类正确的样本数占样本总数的比例

$a c c (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) = y_{i})$

错误率：

$E (f; D) = \int_{x \sim D} I （ f (x) \neq y ） p (x) d x$

查准率： $P = \frac{T P}{T P + F P}$

查全率： $R = \frac{T P}{T P + F N}$

查准率和查全率是一对予盾的度量，通常来讲，查准率高时，查全率每每偏低查全率高时.查准率偏低。

PR图，BEP（Break-Event Point）

根据学习器的预测结果按正例可能性大小对样例进行排序，并逐个把样本做为正例进行预测

比 BEP 更经常使用的 F1 度量：

F1： $F 1 = \frac{2 P R}{P + R} = \frac{2 T P}{样例总数 + T P - T N}$

若对查准率/查全率有不一样偏好：

$F_{β} = \frac{(1 + β^{2}) P R}{(β^{2} P) + R}$

$β = 1$

扩展

不少时候咱们有多个二分类混淆矩阵

宏

$m a c r o - P = \frac{1}{n} \sum_{i = 1}^{n} P_{i}$

$m a c r o - R = \frac{1}{n} \sum_{i = 1}^{n} R_{i}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

微

$m i c r o - P = \frac{\bar{P T}}{\bar{T P} + \bar{F P}}$

$m i c r o - P = \frac{\bar{T P}}{\bar{T P} + \bar{F N}}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

ROC 与 AUC

ROC全称是“受试者工做特征”（Receiver Operating Characteristic）。ROC曲线的面积就是AUC（Area Under the Curve）

$T P R = \frac{T P}{T P + F N}$

$F P R = \frac{F P}{T N + F P}$

$AUC=\frac{1}{2}\sum^{m-1}{i=1}(x{i+1}-x_i)\cdot(y_i + y_{i+1})$

代价敏感错误率与代价曲线

在现实任务中常会遇到这样的状况：不一样类型的错误所形成的后果不一样. 例如在医疗诊断中，错误地把患者诊断为健康人与错误地把健康人诊断为患者, 看起来都是犯了“一次错误”，但后者的影响是增长了进一步检查的麻烦，前者的后果却多是丧失了拯救生命的最佳时机；再如，门禁系统错误地把可通行人员拦在门外，将使得用户体验不佳,但错误地把陌生人放进门内，则会形成严重的安全事故.为权衡不一样类型错误所形成的不一样损失，可为错误赋予“非均等代”（unequal cost).

以二分类任务为例，咱们可根据任务的领域知识设定一个“代价矩阵”（cost matrix)，其中 $c o s t_{i j}$

代价敏感（cost-sensitive）错误率 $E (f; D; c o s t) = \frac{1}{m} (\sum_{x_{i} \in D^{+}} I (f (x_{i}) \neq y_{i}) \times c o s t_{01} + \sum_{x_{i} \in D^{-}} I (f (x_{i}) \neq y_{i}) \times c o s t_{10})$

机器学习系列(一)--术语篇

基本术语：

数据集（data set）

示例”（instance)、样 本”（sample)

属性（attribute）、特征（feature）

属性值（attribute value）

“属性空间”（attribute space)、“样本空间”（sample space)或“输入空间”

特征向量（feature vector）

维数（dimensionality）

学习、训练、训练数据、训练样本、训练集、假设、真相、真实、学习器

“训练示例” （training instance)、“训练例”

预测、标记、样例、标记空间、输出空间

分类、回归、二分类、正类、反类、多分类

聚类、簇

监督学习、无监督学习

泛化能力

假设空间

版本空间

概括偏好

Eote(La|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)Eote(La|X,f)=∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)

∑fEote(La|X,f)=∑f∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)∑fEote(La|X,f)=∑f∑h∑x∈χ−XP(x)I(h(x)≠f(x))P(h|X,La)

=∑x∈χ−XP(x)∑hP(h|X,La)∑fI(h(x)≠f(x))=∑x∈χ−XP(x)∑hP(h|X,La)∑fI(h(x)≠f(x))

=∑x∈χ−XP(x)∑hP(h|X,La)122|x|=∑x∈χ−XP(x)∑hP(h|X,La)122|x|

=122|x|∑x∈χ−XP(x)∑hP(h|X,La)=122|x|∑x∈χ−XP(x)∑hP(h|X,La)

=122|x|∑x∈χ−XP(x)⋅1=122|x|∑x∈χ−XP(x)⋅1

∑fEote(La|X,f)=∑fEote(Lb|X,f)∑fEote(La|X,f)=∑fEote(Lb|X,f)

总结

经验偏差和过拟合

总结

评估方法

留出法

交叉验证法

扩展

自助法

limm→∞(1−1m)m⟶1e≈0.368limm→∞(1−1m)m⟶1e≈0.368

性能度量

E(f;D)=1m∑mi=1(f(xi)−yi)2E(f;D)=1m∑i=1m(f(xi)−yi)2

E(f;D)=∫x∼D（f(x)−y）2p(x)dxE(f;D)=∫x∼D（f(x)−y）2p(x)dx

E(f;D)=1m∑mi=1I(f(xi)≠yi)E(f;D)=1m∑i=1mI(f(xi)≠yi)

acc(f;D)=1m∑mi=1I(f(xi)=yi)acc(f;D)=1m∑i=1mI(f(xi)=yi)

错误率：

E(f;D)=∫x∼DI（f(x)≠y）p(x)dxE(f;D)=∫x∼DI（f(x)≠y）p(x)dx

查准率：P=TPTP+FPP=TPTP+FP

查全率：R=TPTP+FNR=TPTP+FN

PR图，BEP（Break-Event Point）

F1：F1=2PRP+R=2TP样例总数+TP−TNF1=2PRP+R=2TP样例总数+TP−TN

Fβ=(1+β2)PR(β2P)+RFβ=(1+β2)PR(β2P)+R

扩展

macro−P=1n∑ni=1Pimacro−P=1n∑i=1nPi

macro−R=1n∑ni=1Rimacro−R=1n∑i=1nRi

macro−F1=2macro−P×macro−Rmacro−P+macro−Rmacro−F1=2macro−P×macro−Rmacro−P+macro−R

micro−P=PT¯¯¯¯¯¯¯¯TP¯¯¯¯¯¯¯¯+FP¯¯¯¯¯¯¯¯micro−P=PT¯TP¯+FP¯

micro−P=TP¯¯¯¯¯¯¯¯TP¯¯¯¯¯¯¯¯+FN¯¯¯¯¯¯¯¯¯micro−P=TP¯TP¯+FN¯

macro−F1=2macro−P×macro−Rmacro−P+macro−Rmacro−F1=2macro−P×macro−Rmacro−P+macro−R

ROC 与 AUC

TPR=TPTP+FNTPR=TPTP+FN

FPR=FPTN+FPFPR=FPTN+FP

$AUC=\frac{1}{2}\sum^{m-1}{i=1}(x{i+1}-x_i)\cdot(y_i + y_{i+1})$

代价敏感错误率与代价曲线

代价敏感（cost-sensitive）错误率E(f;D;cost)=1m(∑xi∈D+I(f(xi)≠yi)×cost01+∑xi∈D−I(f(xi)≠yi)×cost10)

示例”（instance)、样本”（sample)

$E_{o t e} (L_{a} | X, f) = \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} \sum_{h} \sum_{x \in χ - X} P (x) I (h (x) \neq f (x)) P (h | X, L_{a})$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \sum_{f} I (h (x) \neq f (x))$

$= \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a}) \frac{1}{2} 2^{| x |}$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \sum_{h} P (h | X, L_{a})$

$= \frac{1}{2} 2^{| x |} \sum_{x \in χ - X} P (x) \cdot 1$

$\sum_{f} E_{o t e} (L_{a} | X, f) = \sum_{f} E_{o t e} (L_{b} | X, f)$

$lim_{m \to \infty} (1 - \frac{1}{m})^{m} ⟶ \frac{1}{e} \approx 0.368$

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} (f (x_{i}) - y_{i})^{2}$

$E (f; D) = \int_{x \sim D} （ f (x) - y ）^{2} p (x) d x$

$E (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) \neq y_{i})$

$a c c (f; D) = \frac{1}{m} \sum_{i = 1}^{m} I (f (x_{i}) = y_{i})$

$E (f; D) = \int_{x \sim D} I （ f (x) \neq y ） p (x) d x$

查准率： $P = \frac{T P}{T P + F P}$

查全率： $R = \frac{T P}{T P + F N}$

F1： $F 1 = \frac{2 P R}{P + R} = \frac{2 T P}{样例总数 + T P - T N}$

$F_{β} = \frac{(1 + β^{2}) P R}{(β^{2} P) + R}$

$m a c r o - P = \frac{1}{n} \sum_{i = 1}^{n} P_{i}$

$m a c r o - R = \frac{1}{n} \sum_{i = 1}^{n} R_{i}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

$m i c r o - P = \frac{\bar{P T}}{\bar{T P} + \bar{F P}}$

$m i c r o - P = \frac{\bar{T P}}{\bar{T P} + \bar{F N}}$

$m a c r o - F 1 = \frac{2 m a c r o - P \times m a c r o - R}{m a c r o - P + m a c r o - R}$

$T P R = \frac{T P}{T P + F N}$

$F P R = \frac{F P}{T N + F P}$

代价敏感（cost-sensitive）错误率 $E (f; D; c o s t) = \frac{1}{m} (\sum_{x_{i} \in D^{+}} I (f (x_{i}) \neq y_{i}) \times c o s t_{01} + \sum_{x_{i} \in D^{-}} I (f (x_{i}) \neq y_{i}) \times c o s t_{10})$