K-近邻算法

时间 2019-11-13

标签近邻算法繁體版

原文原文链接

Infi-chu:python

http://www.cnblogs.com/Infi-chu/算法

1、K-近邻算法简介数组

K-近邻算法（KNN）是机器学习算法中一个较为经典的算法bash

1.定义数据结构

若是一个样本在特征空间中的K个最类似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本属于这个类别机器学习

2.距离公式ide

两个样本的距离能够经过欧式距离计算，以下图所示：学习

2、Scikit-learn模块测试

1.机器学习流程大数据

获取数据集
数据基本处理
特征工程
机器学习
模型评估

2.安装

pip install scikit-learn

【注】须要Numpy和Scipy等库支持

3.模块包含的内容

分类、聚类、回归
’特征工程
模型选择、调优

4.K-近邻算法API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5)
# n_neighbors：int，可选，默认=5

3、距离度量

1.欧式距离（Euclidean Distance）

欧氏距离是最容易直观理解的距离度量方法，具体以下：

eg.

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d = 1.4142    2.8284    4.2426    1.4142    2.8284    1.4142

2.曼哈顿距离（manhattan Distance）

在曼哈顿街区要从一个十字路口开车到另外一个十字路口，驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距离”。曼哈顿距离也称为“城市街区距离”(City Block distance)。

eg.

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   2     4     6     2     4     2

3.切比雪夫距离（Chebyshev Distance）

国际象棋中，国王能够直行、横行、斜行，因此国王走一步能够移动到相邻8个方格中的任意一个。国王从格子(x1,y1)走到格子(x2,y2)最少须要多少步？这个距离就叫切比雪夫距离。

eg.

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   1     2     3     1     2     1

4.闵可夫斯基距离（Minkowski Distance）

闵氏距离不是一种距离，而是一组距离的定义，是对多个距离度量公式的归纳性的表述。

其中p是一个变参数：

当p=1时，就是曼哈顿距离；

当p=2时，就是欧氏距离；

当p→∞时，就是切比雪夫距离。

根据p的不一样，闵氏距离能够表示某一类/种的距离。

【总结】

1 闵氏距离，包括曼哈顿距离、欧氏距离和切比雪夫距离都存在明显的缺点:

eg. 二维样本(身高[单位:cm],体重[单位:kg]),现有三个样本：a(180,50)，b(190,50)，c(180,60)。

a与b的闵氏距离（不管是曼哈顿距离、欧氏距离或切比雪夫距离）等于a与c的闵氏距离。但实际上身高的10cm并不能和体重的10kg划等号。

2.闵氏距离缺点

将各个份量的量纲（scale），也就是“单位”相同的看待了
为考虑份量的分布（指望、方差等）多是不一样的

5.标准化欧氏距离（Standardized EuclideanDistance）

标准化欧氏距离是针对欧氏距离的缺点而做的一种改进。

思路：既然数据各维份量的分布不同，那先将各个份量都“标准化”到均值、方差相等。假设样本集X的均值(mean)为m，标准差(standard deviation)为s，X的“标准化变量”表示为：

若是将方差的倒数当作一个权重，也可称之为加权欧氏距离(Weighted Euclidean distance)。

eg.

X=[[1,1],[2,2],[3,3],[4,4]];（假设两个份量的标准差分别为0.5和1）
经计算得:
d =   2.2361    4.4721    6.7082    2.2361    4.4721    2.2361

6.余弦距离（Cosine Distance）

几何中，夹角余弦可用来衡量两个向量方向的差别；机器学习中，借用这一律念来衡量样本向量之间的差别。

夹角余弦取值范围为[-1,1]。余弦越大表示两个向量的夹角越小，余弦越小表示两向量的夹角越大。当两个向量的方向重合时余弦取最大值1，当两个向量的方向彻底相反余弦取最小值-1。

eg.

X=[[1,1],[1,2],[2,5],[1,-4]]
经计算得:
d =   0.9487    0.9191   -0.5145    0.9965   -0.7593   -0.8107

7.汉明距离（Hamming Distance）

两个等长字符串s1与s2的汉明距离为：将其中一个变为另一个所须要做的最小字符替换次数。

The Hamming distance between "1011101" and "1001001" is 2. 
The Hamming distance between "2143896" and "2233796" is 3. 
The Hamming distance between "toned" and "roses" is 3.

汉明重量：是字符串相对于一样长度的零字符串的汉明距离，也就是说，它是字符串中非零的元素个数：对于二进制字符串来讲，就是 1 的个数，因此 11101 的汉明重量是 4。所以，若是向量空间中的元素a和b之间的汉明距离等于它们汉明重量的差a-b。

应用：汉明重量分析在包括信息论、编码理论、密码学等领域都有应用。好比在信息编码过程当中，为了加强容错性，应使得编码间的最小汉明距离尽量大。可是，若是要比较两个不一样长度的字符串，不只要进行替换，并且要进行插入与删除的运算，在这种场合下，一般使用更加复杂的编辑距离等算法。

eg.

X=[[0,1,1],[1,1,2],[1,5,2]]
注：如下计算方式中，把2个向量之间的汉明距离定义为2个向量不一样的份量所占的百分比。

经计算得:
d =   0.6667    1.0000    0.3333

8.杰卡德距离（Jaccard Distance）

杰卡德类似系数(Jaccard similarity coefficient)：两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德类似系数，用符号J(A,B)表示：

杰卡德距离(Jaccard Distance)：与杰卡德类似系数相反，用两个集合中不一样元素占全部元素的比例来衡量两个集合的区分度：

eg.

X=[[1,1,0][1,-1,0],[-1,1,0]]
注：如下计算中，把杰卡德距离定义为不一样的维度的个数占“非全零维度”的比例
经计算得:
d =   0.5000    0.5000    1.0000

9.马氏距离（Mahalanobis Distance）

下图有两个正态分布图，它们的均值分别为a和b，但方差不同，则图中的A点离哪一个整体更近？或者说A有更大的几率属于谁？显然，A离左边的更近，A属于左边整体的几率更大，尽管A与a的欧式距离远一些。这就是马氏距离的直观解释。

马氏距离是基于样本分布的一种距离。

马氏距离是由印度统计学家马哈拉诺比斯提出的，表示数据的协方差距离。它是一种有效的计算两个位置样本集的类似度的方法。

与欧式距离不一样的是，它考虑到各类特性之间的联系，即独立于测量尺度。

马氏距离定义：设整体G为m维整体（考察m个指标），均值向量为μ=（μ₁，μ₂，… ...，μ_m，）^`,协方差阵为∑=（σ_ij）,

则样本X=（X₁，X₂，… …，X_m，）^`与整体G的马氏距离定义为：

马氏距离也能够定义为两个服从同一分布而且其协方差矩阵为∑的随机变量的差别程度：若是协方差矩阵为单位矩阵，马氏距离就简化为欧式距离；若是协方差矩阵为对角矩阵，则其也可称为正规化的欧式距离。

马氏距离特性：

1.量纲无关，排除变量之间的相关性的干扰；

2.马氏距离的计算是创建在整体样本的基础上的，若是拿一样的两个样本，放入两个不一样的整体中，最后计算得出的两个样本间的马氏距离一般是不相同的，除非这两个整体的协方差矩阵碰巧相同；

3 .计算马氏距离过程当中，要求整体样本数大于样本的维数，不然获得的整体样本协方差矩阵逆矩阵不存在，这种状况下，用欧式距离计算便可。

4.还有一种状况，知足了条件整体样本数大于样本的维数，可是协方差矩阵的逆矩阵仍然不存在，好比三个样本点（3，4），（5，6），（7，8），这种状况是由于这三个样本在其所处的二维空间平面内共线。这种状况下，也采用欧式距离计算。

eg.

已知有两个类G₁和G₂，好比G₁是设备A生产的产品，G₂是设备B生产的同类产品。设备A的产品质量高（如考察指标为耐磨度X），其平均耐磨度μ₁=80，反映设备精度的方差σ²(1)=0.25;设备B的产品质量稍差，其平均耐磨损度μ₂=75，反映设备精度的方差σ²(2)=4.

今有一产品G₀，测的耐磨损度X₀=78，试判断该产品是哪一台设备生产的？

直观地看，X₀与μ₁（设备A）的绝对距离近些，按距离最近的原则，是否应把该产品判断设备A生产的？

考虑一种相对于分散性的距离，记X₀与G₁，G₂的相对距离为d₁，d₂,则：

由于d₂=1.5 < d₁=4，按这种距离准则，应判断X₀为设备B生产的。

设备B生产的产品质量较分散，出现X₀为78的可能性较大；而设备A生产的产品质量较集中，出现X₀为78的可能性较小。

这种相对于分散性的距离判断就是马氏距离。

4、K值的选择

1.K值过大

容易受到样本均衡的问题

2.K值太小

容易受到异常点的影响

3.K值选择

选择较小的K值，就至关于用较小的领域中的训练实例进行预测，“学习”近似偏差会减少，只有与输入实例较近或类似的训练实例才会对预测结果起做用，与此同时带来的问题是“学习”的估计偏差会增大，换句话说，K值的减少就意味着总体模型变得复杂，容易发生过拟合；
选择较大的K值，就至关于用较大领域中的训练实例进行预测，其优势是能够减小学习的估计偏差，但缺点是学习的近似偏差会增大。这时候，与输入实例较远（不类似的）训练实例也会对预测器做用，使预测发生错误，且K值的增大就意味着总体的模型变得简单。
K=N（N为训练样本个数），则彻底不足取，由于此时不管输入实例是什么，都只是简单的预测它属于在训练实例中最多的类，模型过于简单，忽略了训练实例中大量有用信息。

在实际应用中，K值通常取一个比较小的数值，例如采用交叉验证法（简单来讲，就是把训练数据在分红两组:训练集和验证集）来选择最优的K值。对这个简单的分类器进行泛化，用核方法把这个线性模型扩展到非线性的状况，具体方法是把低维数据集映射到高维特征空间。

4.近似偏差

对现有训练集的训练偏差，关注训练集，若是近似偏差太小可能会出现过拟合的现象，对现有的训练集能有很好的预测，可是对未知的测试样本将会出现较大误差的预测。模型自己不是最接近最佳模型。

5.估计偏差

能够理解为对测试集的测试偏差，关注测试集，估计偏差小说明对未知数据的预测能力好，模型自己最接近最佳模型。

5、kd树

1.kd树

根据KNN每次须要预测一个点时，咱们都须要计算训练数据集里每一个点到这个点的距离，而后选出距离最近的k个点进行投票。当数据集很大时，这个计算成本很是高，针对N个样本，D个特征的数据集，其算法复杂度为O（DN^2）。

kd树：为了不每次都从新计算一遍距离，算法会把距离信息保存在一棵树里，这样在计算以前从树里查询距离信息，尽可能避免从新计算。其基本原理是，若是A和B距离很远，B和C距离很近，那么A和C的距离也很远。有了这个信息，就能够在合适的时候跳过距离远的点。这样优化后的算法复杂度可下降到O（DNlog（N））。

2.原理

黄色的点做为根节点，上面的点归左子树，下面的点归右子树，接下来再不断地划分，分割的那条线叫作分割超平面（splitting hyperplane），在一维中是一个点，二维中是线，三维的是面。

黄色节点就是Root节点，下一层是红色，再下一层是绿色，再下一层是蓝色。

3.步骤

1.树的创建；

2.最近邻域搜索（Nearest-Neighbor Lookup）

kd树(K-dimension tree)是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是一种二叉树，表示对k维空间的一个划分，构造kd树至关于不断地用垂直于坐标轴的超平面将K维空间切分，构成一系列的K维超矩形区域。kd树的每一个结点对应于一个k维超矩形区域。利用kd树能够省去对大部分数据点的搜索，从而减小搜索的计算量。

类比“二分查找”：给出一组数据：[9 1 4 7 2 5 0 3 8]，要查找8。若是挨个查找（线性扫描），那么将会把数据集都遍历一遍。而若是排一下序那数据集就变成了：[0 1 2 3 4 5 6 7 8 9]，按前一种方式咱们进行了不少没有必要的查找，如今若是咱们以5为分界点，那么数据集就被划分为了左右两个“簇” [0 1 2 3 4]和[6 7 8 9]。

所以，根本就没有必要进入第一个簇，能够直接进入第二个簇进行查找。把二分查找中的数据点换成k维数据点，这样的划分就变成了用超平面对k维空间的划分。空间划分就是对数据点进行分类，“挨得近”的数据点就在一个空间里面。

4.构造方法

（1）构造根结点，使根结点对应于K维空间中包含全部实例点的超矩形区域；

（2）经过递归的方法，不断地对k维空间进行切分，生成子结点。在超矩形区域上选择一个坐标轴和在此坐标轴上的一个切分点，肯定一个超平面，这个超平面经过选定的切分点并垂直于选定的坐标轴，将当前超矩形区域切分为左右两个子区域（子结点）；这时，实例被分到两个子区域。

（3）上述过程直到子区域内没有实例时终止（终止时的结点为叶结点）。在此过程当中，将实例保存在相应的结点上。

（4）一般，循环的选择坐标轴对空间切分，选择训练实例点在坐标轴上的中位数为切分点，这样获得的kd树是平衡的（平衡二叉树：它是一棵空树，或其左子树和右子树的深度之差的绝对值不超过1，且它的左子树和右子树都是平衡二叉树）。

KD树中每一个节点是一个向量，和二叉树按照数的大小划分不一样的是，KD树每层须要选定向量中的某一维，而后根据这一维按左小右大的方式划分数据。在构建KD树时，关键须要解决2个问题：

（1）选择向量的哪一维进行划分；

（2）如何划分数据；

第一个问题简单的解决方法能够是随机选择某一维或按顺序选择，可是更好的方法应该是在数据比较分散的那一维进行划分（分散的程度能够根据方差来衡量）。好的划分方法可使构建的树比较平衡，能够每次选择中位数来进行划分，这样问题2也获得了解决。

6、特征工程——特征预处理

1.为何要进行归一化/标准化处理

特征的单位或者大小相差较大，或者某特征的方差相比其余的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法没法学习到其它的特征，须要用到一些方法进行无量纲化，使不一样规格的数据转换到同一规格。

2.包含内容（数值型数据的无量纲化）

标准化
归一化

3.特征预处理API

sklearn.preprocessing

7、归一化

1.定义

经过对原始数据进行变换把数据映射到(默认为[0,1])之间

2.公式

3.API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )

MinMaxScalar.fit_transform(X)
- X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array

4.总结

注意最大值最小值是变化的，另外，最大值与最小值很是容易受异常点影响，因此这种方法鲁棒性较差，只适合传统精确小数据场景。

8、标准化

1.定义

经过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

2.公式

对于归一化来讲：若是出现异常点，影响了最大值和最小值，那么结果显然会发生改变
对于标准化来讲：若是出现异常点，因为具备必定数据量，少许的异常点对于平均值的影响并不大，从而方差改变较小。

3.API

sklearn.preprocessing.StandardScaler( )

处理以后每列来讲全部数据都汇集在均值0附近标准差差为1
StandardScaler.fit_transform(X)
- X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array

4.总结

在已有样本足够多的状况下比较稳定，适合现代嘈杂大数据场景。

9、交叉验证

1.定义

交叉验证：将拿到的训练数据，分为训练和验证集。如下图为例：将数据分红4份，其中一份做为验证集。而后通过4次(组)的测试，每次都更换不一样的验证集。即获得4组模型的结果，取平均值做为最终结果。又称4折交叉验证。

为了让从训练获得模型结果更加准确。作如下处理：

训练集：训练集+验证集
测试集：测试集

2.目的

交叉验证目的：为了让被评估的模型更加准确可信

10、网格搜索

1.定义

一般状况下，有不少参数是须要手动指定的（如k-近邻算法中的K值），这种叫超参数。可是手动过程繁杂，因此须要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合创建模型。

2.交叉验证、网格搜索API

sklearn.model_selection.GridSearchCV(estimator, param_grid=None,cv=None)

对估计器的指定参数值进行详尽搜索
estimator：估计器对象
param_grid：估计器参数(dict){“n_neighbors”:[1,3,5]}
cv：指定几折交叉验证
fit：输入训练数据
score：准确率
结果分析：
- bestscore__:在交叉验证中验证的最好结果
- bestestimator：最好的参数模型
- cvresults:每次交叉验证后的验证集准确率结果和训练集准确率结果