机器学习基础知识整理概括

时间 2019-11-09

标签机器学习基础知识整理概括繁體版

原文原文链接

关于机器学习的一些基本概念的整理

1.前言

1.机器学习是一门致力于研究如何经过计算的手段，利用经验来改善系统自身的性能的学科。1997年Mitchell给出一个更形式化的定义，假设用P来评估计算机程序在某任务类T上的性能，若一个程序经过利用经验E在T中任务上得到了性能改善，则咱们就说关于T和P，该程序对E进行了学习。算法

机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即学习算法(learning algorithm)。“数据”便是现实生活中的“经验”。
关于产生的模型（model），能够泛指从数据中学得的结果。但也有不一样说法。Hand在2001年发表的一篇文献中就提到，模型是全局结果（例如一颗决策树），模式指的是局部性结果（例如一条规则）。

2. 基本术语

引例，假设搜集到一些关于西瓜的数据（色泽 = 青绿；根蒂 = 蜷缩；敲声 = 浊响），（色泽 = 乌黑；根蒂 = 稍蜷；敲声 = 沉闷），（色泽 = 浅白；根蒂 = 硬挺；敲声 = 清脆），......机器学习

上述引例中，每对括号内是关于西瓜的（也但是任何一个事件或者对象的）一条记录，则有：性能

数据集 (data set)：一组记录的集合学习

示例/样本(instance/sample)：上述都每一条记录，都可称为示例/样本测试

属性/特征(attribute/feature)：反映事件或者对象在某方面的表现或者性质的事项。例如上述色泽，根蒂，敲声spa

属性值(attribute value)：属性上的取值，例如青绿，乌黑，等等对象

特征向量(feature vector)：属性空间上每个点相对原点构成的坐标向量事件

样本维数(sample dimensionality)：每个样本（示例）所包含的不一样属性的数量ci

学习/训练(learning/training) ：从数据中学得模型的过程it

训练数据(training data)：训练过程当中使用的数据

训练样本(training sample)：训练数据中的样本

训练集(training set)：训练样本的集合

假设(hypothesis)：值得是学得模型。由于这个模型对应了关于数据的某种潜在规律

真相/真实(ground-truth)：潜在规律自己

标记(label)：训练样本的结果信息

样例(example)：拥有了标记信息的示例。通常的，用（$x_i,y_i$）来表示第i个样例。其中$y_i$是示例$x_i$的标记

标记空间/输出集合(label space)：全部标记的集合

属性空间/样本空间/输入空间(attribute/sample space)：属性张成的空间。例如，若是把色泽，根蒂，敲声做为三个坐标轴，则他们张成一个用于描述西瓜的三维空间，每一个西瓜均可以找到本身的位置。

分类(classification)：在关于利用训练集学得的预测模型中，预测值是离散值。这样的学习任务称为分类

回归(regression)：与分类类似，只是预测值是连续值

${\color{red} 补充一句：（预测的任务是但愿经过对训练集{(x_1,y_1),(x_2,y_2),...}进行学习，创建一个从输入空间到输出空间的映射关系）}$

二分类任务(binary classification)：预测结果只有两个类别。一般将其中的一个称为正类(positive class)，另外一个称为反类(negative class)。而涉及多个，类别则称为多分类(multi-class)任务

测试(testing)：学得模型之后，使用其进行预测的过程

测试样本(testing sample)：被预测的样本，例如，在学得$\mathit{f}$ 之后，对测试例$x_i$ 可获得其预测标记$y=f(x_i)$

聚类(clustering)：将训练集中的示例分红若干组，每组称为一个簇(cluster)。这些自动造成的簇可能对应一些潜在的概念划分，例如本例中的西瓜能够分红浅色瓜，深色瓜...在聚类学习中，这些浅色瓜，深色瓜的概念事先是不知道的，并且学习过程当中使用的训练样本一般也没有标记信息

学习任务大体能够划分红两类：

（1）监督学习（supervised learning）:训练数据带有标记，例如分类与分归

（2）无监督学习（unsupervised learning）:训练数据不带有标记，例如聚类

泛化能力：学得模型适用于新样本的能力

（目前机器学习仍然假设样本空间的全体样本知足独立同分布假设，所以经典几率论得以适用）

3.假设空间

前言：概括（induction）和假设(deduction)是科学推理的两大基本手段。前者是从特殊到通常的泛化（generalization），即从具体的事实归结出通常性规律；后者则是从通常到特殊的特化(specialization)过程，即从基础原理推演出具体情况。在机器学习中，“从样例中学习”显然是一个概括过程。所以，又被称为概括学习（inductive learning）

广义的概括学习：至关于从样例中学习

狭义的概括学习：从训练数据中学得概念(concept)。所以也称为“概念学习”或者“概念造成” .概念学习中最基本的是布尔概念学习，便是或者不是的结果表述

假设空间（hypothesis space）：全部假设组成的空间

咱们能够将学习的过程看做一个在全部假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设，即可以将训练集中的样本判断正确的假设，假设的表示一旦肯定，假设空间及其规模大小就肯定了。

能够有许多策略对假设空间进行搜索，搜索过程当中能够不断删除与正例不一致的假设，或者与反例一致的假设。最终将会得到与训练集一致的假设，就这是学得的结果。

版本空间(version space)：现实生活中，咱们经常面临很大的假设空间，可是学习的过程是基于有限的样本训练集进行的，所以，可能有多个假设与训练集一致，即存在一个与训练集一致的假设集合，这个假设集合就是版本空间

4.概括偏好

概括偏好（inductive bias）：机器学习算法在学习过程当中对某种类型假设的偏好。偏好要起做用，是发生在造成版本空间的时候。而学习算法又必须产生一个模型。这样，偏好会起做用

${\color{red}任何一个有效的机器学习算法都必有其偏好，不然它将被假设空间中看似在训练集上等效的假设所迷惑，而没法产生正确的学习结果}$ 对于概括偏好的见解: 概括偏好能够看做学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。有一个通常性的原则来引导算法确立正确的偏好，即

奥卡姆剃刀（Occam's razor）：如有多个假设与观察一致，则选择最简单的那个。${\color{red}然而奥卡姆原则并不是惟一可用原则}$

事实上，概括偏好对应了学习算法自己所作出的关于"什么样的模型更好的假设"。在具体的现实问题中，这个假设是否成立，即算法的概括偏好是否与问题自己匹配，大多数时候直接决定了算法可否取得好的性能。

假设学习算法$\zeta_a$ 是基于某种概括偏好产生的模型，学习算法$\zeta_b$是基于另外一种概括偏好产生的模型。对于学习算法$\zeta_a$若它在某些问题上比学习算法$\zeta_b$好，则必然存在一个问题，$\zeta_a$比$\zeta_b$好在哪里？根据NFL定理，不管两种算法怎样产生，二者出错概论的指望是相同的（可是NFL定理前提是，全部问题出现的机会相同，或者全部问题同等重要，可是实际情形咱们只须要关注咱们目前试图解决的问题便可，所以$\zeta_a$与$ \zeta_b$ 仍是有区别的。NFL定理实际上是想说明，脱离具体问题讨论学习算法好坏是无心义的。学习算法自身的概括偏好与问题是否匹配，每每起到决定性做用。）