机器学习与数据挖掘期末考试复习重点整理

分类：算法

– 有类别标记信息, 所以是一种监督学习网络

– 根据训练样本得到分类器，而后把每一个数据归结到某个已知的类，进而也能够预测将来数据的归类。函数

聚类：学习

– 无类别标记, 所以是一种无监督学习测试

– 无类别标记样本，根据信息类似度原则进行聚类，经过聚类，人们可以识别密集的和稀疏的区域，于是发现全局的分布模式，以及数据属性之间的关系spa

聚类方法：对象

划分方法 - （分割类型）排序

K-均值K-Means递归

顺序领导者方法内存

基于模型的方法

基于密度的方法

层次方法（Hierarchical Methods）

K-means思想：

肯定K的值；

随机选择K个样本点，每一个样本点初始地表明一个类的平均值或簇中心；

对剩余每一个数据样本点，根据其到类中心的距离，被划分到最近的类；

从新计算每一个簇的平均值来更新每一个簇中心；

重复这个过程，直到全部样本都不能再分配为止；

返回K中心。

K-means优势：

1、简单，适用于常规不相交的簇。

2、假设数据是呈球形分布，实际任务中不多有这种状况

3、收敛相对较快。

4、相对有效和可扩展 O(t·k·n）

t：迭代; k：中心数; n：数据点数

K-means 缺陷

1、须要提早指定 K 的值。

很难肯定，关于数据集的先验知识(如数据集能够分红多少个部分)可能会有所帮助。

2、可能会收敛到局部最优势。

在实践中，尝试不一样的初始中心点, 从中挑选最好的结果。

3、可能对噪声数据和异常值敏感。

由于簇的中心是取平均，所以聚类簇很远的地方的噪声会致使簇的中心点偏移(这代表均值并非一种稳健的统计量)

在k-means聚类前, 经过预处理移除噪声点每每很是有用

聚类后, 对聚类结果进行一些后处理效果也很好, 如删除太小的聚簇, 或将彼此接近的一些聚簇合并成一个更大的聚簇

4、不适合非凸不规则形状的簇，K均值很难处理非球状的簇和不一样大小的簇。

DBSCAN基于密度优缺点：

1、由于DBSCAN是基于密度定义的, 抗噪声能力强, 而且可以处理任意形状和大小的簇。即能发现使用K均值所不能发现的簇。可是当簇密度变化太大时, 可能会出现问题。

2、对于高维数据, 其密度定义困难。K均值能够用于稀疏的高维数据。

3、当近邻计算须要计算全部点对的邻近度时, DBSCAN的开销很大。

高斯混合模型与k-means：

共同点：

一、可用于聚类的算法

二、都须要指定k的值

三、都须要使用EM 算法求解

四、每每只能收敛于局部最优

GMM比k-means的优势是：

一、能够给出一个样本属于一类的几率是多少，而不是绝对的属于哪一类

二、能够用于生成新的样本点

三、多维的时候，高斯混合模型须要计算协方差，考察不一样维度时间的约束关系

场景以下：

假设原样本有两类，True和False，其中：

1.总共有T个类别为True的样本；

2.总共有F个类别为False的样本；

分类预测后：

1.总共有TT个类别为True的样本被系统判为True，FT个类别为True的样本被系统判为False，则TT+FT=T

2.总共有FF个类别为False的样本被系统判为False，TF个类别为False的样本被系统判为True，则FF+TF=F

l 指标计算：

l 精确度=TT/(TT+TF)--判断正样本中真正正样本的比例

l 准确率=(TT+FF)/(T+F)--判断正确的比重

l 召回率=TT/(TT+FT)--正确判断正例的比重

l 漏报率=FT/(TT+FT)--多少个正例被漏判了

l 虚警率=TF/(TT+TF)--反映被判为正例样本中，有多少个是负例

•前向传播-在前馈神经网络中

•从输入 x 到输出 y, 信息经过网络前向传播

•在训练阶段, 前向传播能够继续向前, 直到它产生标量代价函数C(θ)

•反向传播

•容许来自代价函数的信息而后经过网络反向流动, 以便计算梯度

•能够被应用到任何函数

p 卷积: 图像中不一样数据窗口的数据和卷积核（一个滤波矩阵）做内积

的操做叫作卷积。其计算过程又称为滤波（filter)，本质是提取图像

不一样频段的特征。

p 卷积核:具备的一个属性就是局部性。即它只关注局部特征，局部的

程度取决于卷积核的大小。本质就是比较图像邻近像素的类似性。所

以原图像与卷积核的卷积，其实对频域信息进行选择。好比，图像中

的边缘和轮廓属因而高频信息，图像中某区域强度的综合考量属于低

频信息

K-NN

n 对未知记录分类:

n 计算与各训练记录的距离

n 找出 k 个最近邻

n 使用最近邻的类标号决定未知记录的类标号 (例如, 多数表决)

有那么一堆你已经知道分类的数据，而后当一个新数据进入的时候，就开始跟训练数据里的每一个点求距离，而后挑离这个训练数据最近的K个点看看这几个点属于什么类型，而后用少数服从多数的原则，给新数据归类。

k-NN的特色

n1、是一种基于实例的学习

n 须要一个邻近性度量来肯定实例间的类似性或距离

n 2、不须要创建模型，但分类一个测试样例开销很大

n 须要计算域全部训练实例之间的距离

n 3、基于局部信息进行预测，对噪声很是敏感

n 4、最近邻分类器能够生成任意形状的决策边界

n 决策树和基于规则的分类器一般是直线决策边界

n 5、须要适当的邻近性度量和数据预处理

n 防止邻近性度量被某个属性左右

直接方法: 顺序覆盖或序贯覆盖(sequential covering)

n 在训练集上每学到一条规则, 就将该规则覆盖的训练样例去除, 而后以剩下

的训练样例组成训练集, 重复上述过程

SVM

SVM 是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。

当训练样本线性可分时，经过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机；

当训练数据近似线性可分时，引入松弛变量，经过软间隔最大化，学习一个线性分类器，即线性支持向量机；

当训练数据线性不可分时，经过使用核技巧及软间隔最大化，学习非线性支持向量机。

当样本在原始空间线性不可分时，可将样本空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。而引入这样的映射后，所要求解的对偶问题的求解中，无需求解真正的映射函数，而只须要知道核函数。核函数的定义：K(x,y)=φ(x)·φ(y)，即在特征空间的内积等于它们在原始样本空间中经过核函数 K 计算的结果。一方面数据变成了高维空间中线性可分的数据，另外一方面不须要求解具体的映射函数，只须要给定具体的核函数便可，这样使得求解的难度大大下降。

维灾难(curse of dimensionality)

随着数据维度的增长，许多数据分析变得很是困难。特殊地，随着维度增长，数据在它所占据的空间中愈来愈稀疏

对于分类，这可能意味没有足够的数据对象来建立模型

对于聚类，点之间的密度和距离的定义（对聚类是相当重要的）变得不太有意义

结果: 对于高维数据, 许多分类和聚类算法（以及其余数据分析算法）都有麻烦——分类准确率下降，聚类质量降低

维归约目的

1、避免维灾难

2、下降数据挖掘算法的时间和内存消耗

3、使数据更容易可视化

4、能删除不相关的特征并下降噪声

PCA是无监督学习, 不考虑标记信息

目标是找到捕获数据中最大变化的投影

目的：数据降维、去噪，提取最有价值的信息（基于方差）

思想：将原始的高维（如维度为N）数据向一个较低维度（如维度为K）的空间投影，同时使得数据之间的区分度变大（找一个最好的轴，它的方差越大，使数据能分的越开）。这K维空间的每个维度的基向量（坐标）就是一个主成分

把数据变换到一组新的基上，获得了新的特征的表达

问题：如何找到这K个主成分?

思路：使用方差信息，若在一个方向上发现数据分布的方差越大，则说明该投影方向越能体现数据中的主要信息。该投影方向即应当是一个主成分

LDA的目标是在保留尽量多的类区分信息的同时进行降维.

PCA，它所做的只是将整组数据总体映射到最方便表示这组数据的坐标轴上，映射时没有利用任何数据内部的分类信息。所以，虽然作了PCA后，整组数据在表示上更加方便(下降了维数并将信息损失降到最低)，但在分类上也许会变得更加困难；LDA，在增长了分类信息以后，两组输入映射到了另一个坐标轴上，有了这样一个映射，两组数据之间的就变得更易区分了(在低维上就能够区分，减小了很大的运算量)。

因此PCA和LDA虽然都用到数据降维的思想，可是监督方式不同，目的也不同。PCA是为了去除原始数据集中冗余的维度，让投影子空间的各个维度的方差尽量大，也就是熵尽量大。LDA是经过数据降维找到那些具备discriminative的维度，使得原始数据在这些维度上的投影，不一样类别尽量区分开来。

LDA的原理是，将带上标签的数据（点），经过投影的方法，投影到维度更低的空间中，使得投影后的点，会造成按类别区分，一簇一簇的状况，相同类别的点，将会在投影后的空间中更接近。

决策树的生成由两个阶段组成

• 决策树构建

• 开始时，全部的训练样本都在根节点

• 递归的经过选定的属性，来划分样本（必须是离散值）

• 树剪枝

• 许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检

测和剪去这种分枝，防止过拟合。由于在决策树学习中，为了尽量正确的分类训练样本，结点划分过程将不断重复，有时会形成决策树分枝过多，，训练数据拟合的太好，训练样本把自身的一些特色当作全部数据都有的通常性质而致使过拟合。

• 当决策树很小时，训练和检验偏差都很大，这种状况称为模型拟合不足。出

现拟合不足的缘由是模型还没有学习到数据的真实结构。

• 随着决策树中结点数的增长，模型的训练偏差和检验偏差都会随之降低。

• 当树的规模变得太大时，即便训练偏差还在继续下降，可是检验偏差开始增

大，致使模型过度拟合

ID3 使用信息增益，它偏向于取值数目较多的属性

C4.5 对连续属性离散化，算法产生的分类规则易于理解，准确率高

但效率低，由于构造过程当中许屡次对数据集进行顺序扫描和排序

克服了ID3的不足，在树构造过程当中进行剪枝

CART 生成的决策树分支较大，规模大

咱们但愿决策树的分支结点所包含的样本尽量属于同一类别，即结点的“纯度”愈来愈高。Ent(D)越小，则D 的纯度越高。

信息增益越大，则意味着使用属性a来进行划分所得到的纯度提高越大

基尼指数Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的几率，所以Gini(D)越小，则数据集D的纯度越高