K近邻算法你掌握了吗？来测试一下就知道了！

时间 2019-12-07

标签近邻算法掌握测试一下知道繁體版

原文原文链接

简介

若是你要问我两个机器学习中最直观明了且通俗易懂的算法——那必然就是K近邻算法和基于树的算法了。这两个算法都易于理解，也很容易解释，而且可以很好地去向人们展现。最近，咱们就针对这两种算法，整理了一些测试题。算法

若是你是机器学习的新手，也要在理解这两种算法的基础上进行测试。它们虽然简单，可是却十分强大且被普遍运用在工业领域。这些技能测试可以帮助你测试你在K近邻算法方面的技术能力。由于它们是为测试你在K近邻算法上的基础知识与应用能力而量身定制的。机器学习

有超过650人注册参加考试。若是你错过了这个测试也不要紧，下面就是测试的问题与答案。性能

技能测试试题与答案解析

1）【True or False】KNN算法在测试时花费更多计算，而不是训练时。学习

A） TRUE B）FALSE测试

答案：Aspa

解析：算法的训练阶段仅包括存储训练样本的特征向量和类标签。在测试阶段，经过在最接近该查询点的k个训练样本中分配最频繁的标签来对测试点进行分类——所以这方面计算更多。rem

2）下图中，若使用K近邻算法，最佳K值应在哪里取得？部署

A） 3 B）10 C） 20 D）50it

答案：Bclass

解析：当K为10时，验证的错误率最低，因此K值应取10.

3）下图哪一种度量距离不能用于KNN算法？

A）Manhattan B）Minkowski C）Tanimoto D） Jaccard E）Mahalanobis F）全部均可以

答案：F

解析：全部的度量距离均可以用于KNN。

4）关于KNN哪一种观点是对的？

A）它能够用于分类

B）它能够用于回归

C）它能够用于分类和回归

答案：C

解析：咱们也可使用KNN来解决回归问题。在这种状况下，预测能够基于k个最类似实例的均值或中值。

5）下面关于KNN算法哪一种说法是正确的？

1.若是全部的数据是一样的大小，KNN算法表现比较好

2.KNN算法适用于小数据输入，而大量数据输入时会遇到困难。

3.KNN算法并无对正在处理的问题的功能形式进行假设。

A）1和2

B）1和3

C）只有1

D）以上全部

答案：D

解析：以上全部的说法都是正确的

6）如下哪一种机器学习算法可用于输入分类和连续变量的缺失值？

A ）KNN

B）线性回归

C）逻辑回归

答案：A

解析：k-NN算法可用于估算分类和连续变量的缺失值。

7）关于曼哈顿距离哪一种观点是对的？

A）它能够用于连续变量

B）它能够用于分类变量

C）二者均可以

D）二者都不能够

答案：A

解析：曼哈顿距离用于计算实值特征之间的距离。

8）对于k-NN中的分类变量，咱们使用如下哪一种距离测量？

1.汉明距离

2.欧几里得距离

3.曼哈顿距离

A）1

B）2

C）3

D）1和2

E ）2和3

F ）1和2和3

答案：A

解析：在连续变量的状况下使用欧几里得距离和曼哈顿距离，而在分类变量的状况下使用汉明距离。

9）如下哪一项是欧几里德距离算法下，两个数据点A（1,3）和B（2,3）之间的距离？

A）1

B）2

C）4

D）8

答案：A

解析：sqrt( (1-2)^2 + (3-3)^2) = sqrt(1^2 + 0^2) = 1

10）如下哪一项将是曼哈顿距离算法下，两个数据点A（1,3）和B（2,3）之间的距离？

A）1

B）2

C）4

D）8

答案：A

解析：sqrt( mod((1-2)) + mod((3-3))) = sqrt(1 + 0) = 1

11题，12题内容

假设已经给出了如下数据，其中x和y是两个输入变量，分类结果是因变量。

下面是散点图，在二维空间里显示上面的数据：

11）假设您想要使用KNN（K值为3）中的欧式距离预测新数据点x = 1和y = 1的类。那么这个数据点属于哪一个类？

A）+类

B）-类

C）不能肯定

D）不是上面这些结果

答案：A

解析：全部三个最近点都是+类，因此这一点将被归类为+ 类。

12）在上一个问题中，您如今想要使用7-NN而不是3-KNN，如下x = 1和y = 1属于哪一个类？

A）+类

B）-类

C）不能肯定

答案：B

解析：如今这一点将被归类为 - 类，由于有4个-类点和3个+类点在圆圈中。

13题，14题的内容：

假设您已经给出了如下2类数据，其中“+”表示正类，“-”表示负类。

13）在KNN中，下面哪一个K值，能够值得交叉验证的偏差值最小？

A）3

B）5

C）上面均可以

D）上面都不能够

答案：B

解析：K为5时，交叉验证的偏差值最小。

14）下面哪一个是K为5时，交叉验证集的误差？

A）2/14

B）4/14

C）6/14

D）8/14

E）以上都不是

答案：E

解析：K为5时，正确结果为10/14。

15）就误差而言，关于K，下面哪一个是正确的？

A）增长K时，误差会增长

B）减少K时，误差会增长

C）不能肯定

D）以上都不对

答案：A

解析：大K意味着简单的模型，简单的模型老是有高误差。

16）就方差而言，关于K，下面哪一个是正确的？

A）增长K时，方差会增长

B）减少K时，方差会增长

C）不能肯定

D）以上都不对

答案：B

解析：简单的模型通常会有较小的方差。

17）一般咱们在K-NN算法中使用了如下两个距离（欧式距离和曼哈顿距离）。这些距离在两个点A（x1，y1）和B（x2，Y2）之间。你的任务是经过查看如下两个图来标记两个距离。关于下图，如下哪一个选项是正确的？

A）左边是曼哈顿距离，右边是欧几里德距离 B）左边是欧几里德距离，右边是曼哈顿距离 C）左边或右边都不是曼哈顿距离 D）左或右都不是欧几里德距离

答案：B

解析：左边是欧几里德距离如何工做的图形描述，而右边是曼哈顿距离。

18）在KNN中发现有噪声，你会作下面哪一种选择？

A）增长K的值 B）减少K的值 C）噪声与K值无关 D）以上都不对

答案：A

解析：增长K值可以让你更加相信分类结果。

19）在KNN中，因为维度等缘由，很容易产生过拟合。那么你会采用下面哪一种方法来解决这个问题呢？

1.维度下降

2.特征选择

A）1 B）2 C）1和2 D）以上都不对

答案：C

解析：两种方法都是能够的。

20）下面两个陈述哪一个是对的？

1.KNN是一种基于记忆的方法，由于分类器在咱们收集到新的数据时会当即适应。

2.在最坏的状况下，用于分类新样本的计算复杂度随着训练数据集中的样本数量线性增加。

A）1

B）2

C）1和2

D）以上都不对

答案：C

解析：两个都是对的，显而易见。

21）假设给出下面的图像（左边为1.中间为2，右边为3），如今你的任务是找出每幅图中的KNN中的K值，其中K1表示第一个K，K2表示第二个K，K3表示第三个K。

A) K1 > K2 > K3 B) K1 < K2 C) K1 = K2 = K3 D) None of these

答案：D

解析：K3是K值最高的，而最低的是K1。

22）下图中哪一个k 最少能够给出一个交叉验证准确度？

A）1

B）2

C）3

D）5

答案：B

解析：若是k值为2，则它会提供最低的交叉验证精度。

23）如今有一家公司创建了一个KNN分类器，能够在训练数据时得到100%的准确性。当他们在客户端部署这个模型的时候发现这个模型一点都不许确，多是下面哪一项出错了？

注：模型已经成果部署，除了模型性能外，客户端没有发现其余技术问题。

A）它多是一个过拟合了的模型

B）这个模型不适用

C）没法解释

D）以上都不是

答案：A

解析：在一个过分拟合的模块中，它能够在训练数据上表现良好，但它并不足以推广给新数据而达到一样的结果。

24）下面两个关于KNN的陈述，哪一个是对的？

1.在k值很是大的状况下，咱们能够未来自其余类的点包括在邻域中。

2.在k值过小的状况下，算法对噪声很是敏感。

A）1

B）2

C）1和2

D）以上都不对

答案：C

解析：这两个都是显而易见的正确。

25）关于KNN分类器，下面哪一个说法是正确的？

A）K值越大，分类的精度越高

B）使用较小的K值，决策边界教平滑

C）决策边界是线性的

D）KNN没有明确的训练步骤

答案：D

解析：选项A，并不老是这样，K值不能过小，也不能太大；

选项B，C，决策边界多是有锯齿状的。

26）【True or False】可以使用一个1-NN分类器去构建一个2-NN分类器。

A） TRUE B）FALSE

答案：A

解析：能够经过集成1-NN分类器来实现2-NN分类器。

27）在k-NN中，当你增长/减小k的值时会发生什么？

A）随着K值增长，决策边界会更加平滑

B）随着K值减少，决策边界会更加平滑

C）决策边界是否平滑与K值无关

D）以上都不对

答案：A

解析：增长K值，决策边界会更加平滑

28）下面两个关于KNN的陈述，哪一个是对的？

1.咱们能够在交叉验证的帮助下选择k的最佳值。

2.欧几里德距离将每一个特征视为同等重要。

A）1

B）2

C）1和2

D）以上都不对

答案：C

解析：两个说法都是正确的

29题，30题内容

假设你已经训练好了KNN模型，如今你想要在测试集上进行预测。在测试以前，你想要计算KNN模型用于预测测试集的时间。

注：计算两次观察之间的距离须要花费时间D。

29）若是测试数据中有N（很是大）个观测值，1-NN所需的时间是多少？

A ) NxD B ) NxDx2 C ) (NxD)/2 D ) 以上都不对

答案：A

解析：当N的值很是大时，计算每一个观测值时间就是N*D。

30）1-NN，2-NN，3-NN 所用时间之间的关系是什么？

A) 1-NN >2-NN >3-NN B) 1-NN < 2-NN < 3-NN C) 1-NN = 2-NN = 3-NN D) 以上都不对

答案：C

解析：每一个K的训练时间都是相同的。

整体分布

下面是参加测试者的得分分布图：

在分布图中可见，超过250人进行了测试，最高分为24分。