机器学习算法：KNN算法之视频详解和项目源码实操

时间 2019-11-08

标签机器学习算法 knn 视频详解项目源码繁體版

原文原文链接

本文是由【菜鸟窝】特邀清华人工智能博士亲授，从零开始教你K近邻分类算法（K-Nearest Neighbor algorithm (short for KNN)），并经过实际案例手把手教会你们进行实操。相关的源码会发给你们实践，让你真正作到学以至用。算法

视频详解和实操代码可勾搭运营小姐姐（微信id：BT474849）免费领取哦。微信

类似性度量

类似性度量： • 距离，距离越小越类似
• 类似系数，类似系数越大越类似。
• 样品之间的距离和类似系数有着各类不一样的定义，
而这些定义与变量的类型有着很是密切的关系。机器学习

1、距离

• 设x =(x1,x2,⋯,xp
)′ 和y =(y1,y2,⋯,yp
)′为两个样本，
则所定义的距离通常应知足以下三个条件：函数

非负性：d(x, y)≥0，d(x, y)=0当且仅当x=y；
对称性：d(x, y)=d(y, x)；
三角不等式：d(x, y)≤d(x, z) + d(z, y)。

常见的距离函数

• 欧氏距离
• 曼哈顿距离
• 马氏距离
•....学习

一、欧式距离

欧式距离

二、曼哈顿距离

• 曼哈顿距离(Manhattan distance) 为两个点上在标
准坐标系上的绝对轴距之总和。
• 具体定义为：两个向量𝑥 = (𝑥1, 𝑥2, … , 𝑥𝑛)和y = (𝑦1, 𝑦2, … , 𝑦𝑛) ，那么它们之间的曼哈顿距离为人工智能

三、马氏距离

• x和y之间的马氏距离为设计

马氏距离的直观理解3d

2、类似系数

• 类似系数越大，认为变量之间的类似性程度就越
高；反之，则越低。
• 变量间类似系数通常应知足的条件rest

常见的相关性系数

• 夹角余弦
• 皮尔逊相关系数
• …orm

一、夹角余弦（衡量向量夹角）
• 两向量间的角度又称cosine相关系数。两个n维
向量间的角度距离为：

其中，分子为两个向量的点积，分母为两个向量模的积余弦取值范围为[-1,1] • 夹角越小，趋近于0度，余弦值越接近于1，向量方向越吻合，则越类似。• 夹角为90度，两向量正交，余弦值为0时。• 夹角180度，两个向量的方向彻底相反，夹角余弦取最小值-1。

二、皮尔逊相关系数
• 皮尔逊相关系数的计算公式以下，结果是一个在
-1与1之间的系数。该系数用来讲明两个样本间
联系的强弱程度。

相关系数的分类
• 0.8-1.0 极强相关
• 0.6-0.8 强相关
• 0.4-0.6 中等程度相关
• 0.2-0.4 弱相关
• 0.0-0.2 极弱相关或无相关
• -1.0-0.0 负相关

3、K近邻分类算法

1-Nearest Neighbor
• 全部最简单机器学习分类器中的一种
• 基本思想: label a new point the same as the
closest known point

二、距离指标

不一样的指标能够改变决策面

对1-NN进行扩展以消除标签中的噪音
• 对新节点分配与其最近的K个节点中最多出现的标签

例子：KNN分类器

类似度度量：匹配属性的数量 (k=2)
•新例子：
• 例1 (great, no, no, normal, no) Yes
最类似： number 2 （1个不匹配，4个匹配）  yes
第二个最类似的例子： number 1 （2个不匹配, 3个匹配）  yes
• 例2 (mediocre, yes, no, normal, no) Yes/No
最类似：number 3 （1个不匹配， 4个匹配）  no
第二个最类似的例子： number 1 （2个不匹配，3个匹配）  yes

KNN的优势和缺点
• +算法设计简单、易于实现
• - 分类很耗时
• - 分类精度较低

实操代码详解（视频截图）

基于knn（sklearn）的鸢尾花卉数据分类案例视频详解勾搭运营（微信id：BT474849）免费领取。

以上具体视频和实操代码、项目文档可勾搭运营小姐姐（微信id：BT474849）免费领取。