机器学习面试题总结（转）

时间 2019-11-12

原文原文链接

原文连接： https://blog.csdn.net/sinat_35512245/article/details/78796328html

1.请简要介绍下SVM。前端

SVM，全称是support vector machine，中文名叫支持向量机。SVM是一个面向数据的分类算法，它的目标是为肯定一个分类超平面，从而将不一样的数据分隔开。python

扩展：git

支持向量机学习方法包括构建由简至繁的模型：线性可分支持向量机、线性支持向量机及非线性支持向量机。当训练数据线性可分时，经过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机；当训练数据近似线性可分时，经过软间隔最大化，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机；当训练数据线性不可分时，经过使用核技巧及软间隔最大化，学习非线性支持向量机。程序员

支持向量机通俗导论（理解SVM的三层境界）面试

机器学习之深刻理解SVM算法

2.请简要介绍下Tensorflow的计算图。数据库

@寒小阳：Tensorflow是一个经过计算图的形式来表述计算的编程系统，计算图也叫数据流图，能够把计算图看作是一种有向图，Tensorflow中的每个计算都是计算图上的一个节点，而节点之间的边描述了计算之间的依赖关系。编程

3.请问GBDT和XGBoost的区别是什么？bootstrap

@Xijun LI：XGBoost相似于GBDT的优化版，不管是精度仍是效率上都有了提高。与GBDT相比，具体的优势有：
1.损失函数是用泰勒展式二项逼近，而不是像GBDT里的就是一阶导数；
2.对树的结构进行了正则化约束，防止模型过分复杂，下降了过拟合的可能性；
3.节点分裂的方式不一样，GBDT是用的基尼系数，XGBoost是通过优化推导后的。

知识点连接：集成学习总结

4.在k-means或kNN，咱们是用欧氏距离来计算最近的邻居之间的距离。为何不用曼哈顿距离？

曼哈顿距离只计算水平或垂直距离，有维度的限制。另外一方面，欧氏距离可用于任何空间的距离计算问题。由于，数据点能够存在于任何空间，欧氏距离是更可行的选择。例如：想象一下国际象棋棋盘，象或车所作的移动是由曼哈顿距离计算的，由于它们是在各自的水平和垂直方向作的运动。

5.百度2015校招机器学习笔试题。

知识点连接：百度2015校招机器学习笔试题

6.简单说说特征工程。

7.关于LR。

@rickjin：把LR从头到脚都给讲一遍。建模，现场数学推导，每种解法的原理，正则化，LR和maxent模型啥关系，LR为啥比线性回归好。有很多会背答案的人，问逻辑细节就糊涂了。原理都会? 那就问工程，并行化怎么作，有几种并行化方式，读过哪些开源的实现。还会，那就准备收了吧，顺便逼问LR模型发展历史。

声明：因为原文中的连接已经失效，故而本身补充了一个新的连接

知识点连接：机器学习之Logistic回归(逻辑蒂斯回归）

8.overfitting怎么解决？

dropout、regularization、batch normalizatin

9.LR和SVM的联系与区别？

@朝阳在望，联系：
一、LR和SVM均可以处理分类问题，且通常都用于处理线性二分类问题（在改进的状况下能够处理多分类问题）
二、两个方法均可以增长不一样的正则化项，如L一、L2等等。因此在不少实验中，两种算法的结果是很接近的。
区别：
一、LR是参数模型，SVM是非参数模型。
二、从目标函数来看，区别在于逻辑回归采用的是Logistical Loss，SVM采用的是hinge loss.这两个损失函数的目的都是增长对分类影响较大的数据点的权重，减小与分类关系较小的数据点的权重。
三、SVM的处理方法是只考虑Support Vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归经过非线性映射，大大减少了离分类平面较远的点的权重，相对提高了与分类最相关的数据点的权重。
四、逻辑回归相对来讲模型更简单，好理解，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来讲复杂一些，SVM转化为对偶问题后,分类只须要计算与少数几个支持向量的距离,这个在进行复杂核函数计算时优点很明显,可以大大简化模型和计算。
五、Logic 能作的 SVM能作，但可能在准确率上有问题，SVM能作的Logic有的作不了。

答案来源：机器学习常见面试问题（一）

10.LR与线性回归的区别与联系？

@nishizhen
我的感受逻辑回归和线性回归首先都是广义的线性回归，
其次经典线性模型的优化目标函数是最小二乘，而逻辑回归则是似然函数，
另外线性回归在整个实数域范围内进行预测，敏感度一致，而分类范围，须要在[0,1]。逻辑回归就是一种减少预测范围，将预测值限定为[0,1]间的一种回归模型，于是对于这类问题来讲，逻辑回归的鲁棒性比线性回归的要好。
@乖乖癞皮狗：逻辑回归的模型本质上是一个线性回归模型，逻辑回归都是以线性回归为理论支持的。但线性回归模型没法作到sigmoid的非线性形式，sigmoid能够轻松处理0/1分类问题。

11.为何XGBoost要用泰勒展开，优点在哪里？

@AntZ：XGBoost使用了一阶和二阶偏导, 二阶导数有利于梯度降低的更快更准. 使用泰勒展开取得二阶倒数形式, 能够在不选定损失函数具体形式的状况下用于算法优化分析.本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增长了XGBoost的适用性。

12.XGBoost如何寻找最优特征？是又放回仍是无放回的呢？

@AntZ：XGBoost在训练的过程当中给出各个特征的评分，从而代表每一个特征对模型训练的重要性.。XGBoost利用梯度优化模型算法, 样本是不放回的(想象一个样本连续重复抽出,梯度来回踏步会不会高兴)。但XGBoost支持子采样, 也就是每轮计算能够不使用所有样本。

13.谈谈判别式模型和生成式模型？

判别方法：由数据直接学习决策函数 Y = f（X），或者由条件分布几率 P（Y|X）做为预测模型，即判别模型。

生成方法：由数据学习联合几率密度分布函数 P（X,Y）,而后求出条件几率分布P(Y|X)做为预测的模型，即生成模型。

由生成模型能够获得判别模型，但由判别模型得不到生成模型。

常见的判别模型有：K近邻、SVM、决策树、感知机、线性判别分析（LDA）、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场

常见的生成模型有：朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型（LDA）、限制玻尔兹曼机

14.L1和L2的区别。

L1范数（L1 norm）是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。
好比向量A=[1，-1，3]，那么A的L1范数为 |1|+|-1|+|3|.
简单总结一下就是：
L1范数: 为x向量各个元素绝对值之和。
L2范数: 为x向量各个元素平方和的1/2次方，L2范数又称Euclidean范数或Frobenius范数

Lp范数: 为x向量各个元素绝对值p次方和的1/p次方.
在支持向量机学习过程当中，L1范数实际是一种对于成本函数求解最优的过程，所以，L1范数正则化经过向成本函数中添加L1范数，使得学习获得的结果知足稀疏化，从而方便人类提取特征。
L1范数能够使权值稀疏，方便特征提取。
L2范数能够防止过拟合，提高模型的泛化能力。

15.L1和L2正则先验分别服从什么分布？

@齐同窗：面试中遇到的，L1和L2正则先验分别服从什么分布，L1是拉普拉斯分布，L2是高斯分布。

16.CNN最成功的应用是在CV，那为何NLP和Speech的不少问题也能够用CNN解出来？为何AlphaGo里也用了CNN？这几个不相关的问题的类似性在哪里？CNN经过什么手段抓住了这个共性？

@许韩

知识点连接（答案解析）：深度学习岗位面试问题整理笔记

17.说一下Adaboost，权值更新公式。当弱分类器是Gm时，每一个样本的的权重是w1，w2…，请写出最终的决策公式。

答案解析

18.LSTM结构推导，为何比RNN好？

推导forget gate，input gate，cell state， hidden information等的变化；由于LSTM有进有出且当前的cell informaton是经过input gate控制以后叠加的，RNN是叠乘，所以LSTM能够防止梯度消失或者爆炸。

19.常常在网上搜索东西的朋友知道，当你不当心输入一个不存在的单词时，搜索引擎会提示你是否是要输入某一个正确的单词，好比当你在Google中输入“Julw”时，系统会猜想你的意图：是否是要搜索“July”，以下图所示：

这叫作拼写检查。根据谷歌一员工写的文章How to Write a Spelling Corrector显示，Google的拼写检查基于贝叶斯方法。请说说的你的理解，具体Google是怎么利用贝叶斯方法，实现”拼写检查”的功能。

用户输入一个单词时，可能拼写正确，也可能拼写错误。若是把拼写正确的状况记作c（表明correct），拼写错误的状况记作w（表明wrong），那么”拼写检查”要作的事情就是：在发生w的状况下，试图推断出c。换言之：已知w，而后在若干个备选方案中，找出可能性最大的那个c，也就是求P(c|w)P(c|w)的最大值。而根据贝叶斯定理，有：
P(c|w)=P(w|c)P(c)P(w)
P(c|w)=P(w|c)P(c)P(w)

因为对于全部备选的c来讲，对应的都是同一个w，因此它们的P(w)是相同的，所以咱们只要最大化P(w|c)P(c)P(w|c)P(c)便可。其中：
P(c)表示某个正确的词的出现”几率”，它能够用”频率”代替。若是咱们有一个足够大的文本库，那么这个文本库中每一个单词的出现频率，就至关于它的发生几率。某个词的出现频率越高，P(c)就越大。好比在你输入一个错误的词“Julw”时，系统更倾向于去猜想你可能想输入的词是“July”，而不是“Jult”，由于“July”更常见。

P(w|c)表示在试图拼写c的状况下，出现拼写错误w的几率。为了简化问题，假定两个单词在字形上越接近，就有越可能拼错，P(w|c)就越大。举例来讲，相差一个字母的拼法，就比相差两个字母的拼法，发生几率更高。你想拼写单词July，那么错误拼成Julw（相差一个字母）的可能性，就比拼成Jullw高（相差两个字母）。值得一提的是，通常把这种问题称为“编辑距离”，参见程序员编程艺术第二十八~二十九章：最大连续乘积子串、字符串编辑距离。

因此，咱们比较全部拼写相近的词在文本库中的出现频率，再从中挑出出现频率最高的一个，便是用户最想输入的那个词。具体的计算过程及此方法的缺陷请参见How to Write a Spelling Corrector。

20.为何朴素贝叶斯如此“朴素”？

由于它假定全部的特征在数据集中的做用是一样重要和独立的。正如咱们所知，这个假设在现实世界中是很不真实的，所以，说朴素贝叶斯真的很“朴素”。

21.机器学习中，为什么要常常对数据作归一化？

@zhanlijun

本题解析来源：为何一些机器学习模型须要对数据进行归一化？

22.谈谈深度学习中的归一化问题。

详情参见此视频：深度学习中的归一化

23.请简要说说一个完整机器学习项目的流程。

1 抽象成数学问题
明确问题是进行机器学习的第一步。机器学习的训练过程一般都是一件很是耗时的事情，胡乱尝试时间成本是很是高的。
这里的抽象成数学问题，指的咱们明确咱们能够得到什么样的数据，目标是一个分类仍是回归或者是聚类的问题，若是都不是的话，若是划归为其中的某类问题。
2 获取数据
数据决定了机器学习结果的上限，而算法只是尽量逼近这个上限。
数据要有表明性，不然必然会过拟合。
并且对于分类问题，数据偏斜不能过于严重，不一样类别的数据数量不要有数个数量级的差距。
并且还要对数据的量级有一个评估，多少个样本，多少个特征，能够估算出其对内存的消耗程度，判断训练过程当中内存是否可以放得下。若是放不下就得考虑改进算法或者使用一些降维的技巧了。若是数据量实在太大，那就要考虑分布式了。
3 特征预处理与特征选择
良好的数据要可以提取出良好的特征才能真正发挥效力。
特征预处理、数据清洗是很关键的步骤，每每可以使得算法的效果和性能获得显著提升。归一化、离散化、因子化、缺失值处理、去除共线性等，数据挖掘过程当中不少时间就花在它们上面。这些工做简单可复制，收益稳定可预期，是机器学习的基础必备步骤。
筛选出显著特征、摒弃非显著特征，须要机器学习工程师反复理解业务。这对不少结果有决定性的影响。特征选择好了，很是简单的算法也能得出良好、稳定的结果。这须要运用特征有效性分析的相关技术，如相关系数、卡方检验、平均互信息、条件熵、后验几率、逻辑回归权重等方法。
4 训练模型与调优
直到这一步才用到咱们上面说的算法进行训练。如今不少算法都可以封装成黑盒供人使用。可是真正考验水平的是调整这些算法的（超）参数，使得结果变得更加优良。这须要咱们对算法的原理有深刻的理解。理解越深刻，就越能发现问题的症结，提出良好的调优方案。
5 模型诊断
如何肯定模型调优的方向与思路呢？这就须要对模型进行诊断的技术。
过拟合、欠拟合判断是模型诊断中相当重要的一步。常见的方法如交叉验证，绘制学习曲线等。过拟合的基本调优思路是增长数据量，下降模型复杂度。欠拟合的基本调优思路是提升特征数量和质量，增长模型复杂度。
偏差分析也是机器学习相当重要的步骤。经过观察偏差样本，全面分析偏差产生偏差的缘由:是参数的问题仍是算法选择的问题，是特征的问题仍是数据自己的问题……
诊断后的模型须要进行调优，调优后的新模型须要从新进行诊断，这是一个反复迭代不断逼近的过程，须要不断地尝试，进而达到最优状态。
6 模型融合
通常来讲，模型融合后都能使得效果有必定提高。并且效果很好。
工程上，主要提高算法准确度的方法是分别在模型的前端（特征清洗和预处理，不一样的采样模式）与后端（模型融合）上下功夫。由于他们比较标准可复制，效果比较稳定。而直接调参的工做不会不少，毕竟大量数据训练起来太慢了，并且效果难以保证。
7 上线运行
这一部份内容主要跟工程实现的相关性比较大。工程上是结果导向，模型在线上运行的效果直接决定模型的成败。不单纯包括其准确程度、偏差等状况，还包括其运行的速度(时间复杂度)、资源消耗程度（空间复杂度）、稳定性是否可接受。
这些工做流程主要是工程实践上总结出的一些经验。并非每一个项目都包含完整的一个流程。这里的部分只是一个指导性的说明，只有你们本身多实践，多积累项目经验，才会有本身更深入的认识。
故，基于此，七月在线每一期ML算法班都特此增长特征工程、模型调优等相关课。好比，这里有个公开课视频《特征处理与特征选择》。

24.new 和 malloc的区别？

知识点连接：new 和 malloc的区别

25.hash 冲突及解决办法？

@Sommer_Xia

关键字值不一样的元素可能会映象到哈希表的同一地址上就会发生哈希冲突。解决办法：
1）开放定址法：当冲突发生时，使用某种探查(亦称探测)技术在散列表中造成一个探查(测)序列。沿此序列逐个单元地查找，直到找到给定的关键字，或者碰到一个开放的地址(即该地址单元为空)为止（若要插入，在探查到开放的地址，则可将待插入的新结点存人该地址单元）。查找时探查到开放的地址则代表表中无待查的关键字，即查找失败。
2）再哈希法：同时构造多个不一样的哈希函数。
3）链地址法：将全部哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中，于是查找、插入和删除主要在同义词链中进行。链地址法适用于常常进行插入和删除的状况。
4）创建公共溢出区：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素，一概填入溢出表。

26.如何解决梯度消失和梯度膨胀？

（1）梯度消失：
根据链式法则，若是每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即便这个结果是0.99，在通过足够多层传播以后，偏差对输入层的偏导会趋于0。
能够采用ReLU激活函数有效的解决梯度消失的状况。
（2）梯度膨胀：
根据链式法则，若是每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在通过足够多层传播以后，偏差对输入层的偏导会趋于无穷大。

能够经过激活函数来解决。

27.下列哪一个不属于CRF模型对于HMM和MEMM模型的优点（）

A. 特征灵活
B. 速度快
C. 可容纳较多上下文信息
D. 全局最优
解答：首先，CRF，HMM(隐马模型)，MEMM(最大熵隐马模型)都经常使用来作序列标注的建模。
隐马模型一个最大的缺点就是因为其输出独立性假设，致使其不能考虑上下文的特征，限制了特征的选择。
最大熵隐马模型则解决了隐马的问题，能够任意选择特征，但因为其在每一节点都要进行归一化，因此只能找到局部的最优值，同时也带来了标记偏见的问题，即凡是训练语料中未出现的状况全都忽略掉。
条件随机场则很好的解决了这一问题，他并不在每个节点进行归一化，而是全部特征进行全局归一化，所以能够求得全局的最优值。

答案为B。

28.简单说下有监督学习和无监督学习的区别？

有监督学习：对具备标记的训练样本进行学习，以尽量对训练样本集外的数据进行分类预测。（LR,SVM,BP,RF,GBDT）
无监督学习：对未标记的样本进行训练学习，比发现这些样本中的结构知识。(KMeans,DL)

29.了解正则化么？

正则化是针对过拟合而提出的，觉得在求解模型最优的是通常优化最小的经验风险，如今在该经验风险上加入模型复杂度这一项（正则化项是模型参数向量的范数），并使用一个rate比率来权衡模型复杂度与以往经验风险的权重，若是模型复杂度越高，结构化的经验风险会越大，如今的目标就变为告终构经验风险的最优化，能够防止模型训练过分复杂，有效的下降过拟合的风险。
奥卡姆剃刀原理，可以很好的解释已知数据而且十分简单才是最好的模型。

30.协方差和相关性有什么区别？

相关性是协方差的标准化格式。协方差自己很难作比较。例如：若是咱们计算工资（$）和年龄（岁）的协方差，由于这两个变量有不一样的度量，因此咱们会获得不能作比较的不一样的协方差。为了解决这个问题，咱们计算相关性来获得一个介于-1和1之间的值，就能够忽略它们各自不一样的度量。

31.线性分类器与非线性分类器的区别以及优劣。

若是模型是参数的线性函数，而且存在线性分类面，那么就是线性分类器，不然不是。
常见的线性分类器有：LR,贝叶斯分类，单层感知机、线性回归。
常见的非线性分类器：决策树、RF、GBDT、多层感知机。
SVM两种都有(看线性核仍是高斯核)。
线性分类器速度快、编程方便，可是可能拟合效果不会很好。
非线性分类器编程复杂，可是效果拟合能力强。

32.数据的逻辑存储结构（如数组，队列，树等）对于软件开发具备十分重要的影响，试对你所了解的各类存储结构从运行速度、存储效率和适用场合等方面进行简要地分析。

33.什么是分布式数据库？

分布式数据库系统是在集中式数据库系统成熟技术的基础上发展起来的，但不是简单地把集中式数据库分散地实现，它具备本身的性质和特征。集中式数据库系统的许多概念和技术，如数据独立性、数据共享和减小冗余度、并发控制、完整性、安全性和恢复等在分布式数据库系统中都有了不一样的、更加丰富的内容。

34.简单说说贝叶斯定理。

在引出贝叶斯定理以前，先学习几个定义：
条件几率（又称后验几率）就是事件A在另一个事件B已经发生条件下的发生几率。条件几率表示为P(A|B)，读做“在B条件下A的几率”。
好比，在同一个样本空间Ω中的事件或者子集A与B，若是随机从Ω中选出的一个元素属于B，那么这个随机选择的元素还属于A的几率就定义为在B的前提下A的条件几率，因此：P(A|B) = |A∩B|/|B|，接着分子、分母都除以|Ω|获得：
P(A|B)=P(A∩B)P(B)
P(A|B)=P(A∩B)P(B)

联合几率表示两个事件共同发生的几率。A与B的联合几率表示为P(A∩B)P(A∩B)或者P(A，B)P(A，B)。
边缘几率（又称先验几率）是某个事件发生的几率。边缘几率是这样获得的：在联合几率中，把最终结果中那些不须要的事件经过合并成它们的全几率，而消去它们（对离散随机变量用求和得全几率，对连续随机变量用积分得全几率），这称为边缘化（marginalization），好比A的边缘几率表示为P(A)，B的边缘几率表示为P(B)。
接着，考虑一个问题：P(A|B)是在B发生的状况下A发生的可能性。
1）首先，事件B发生以前，咱们对事件A的发生有一个基本的几率判断，称为A的先验几率，用P(A)表示；
2）其次，事件B发生以后，咱们对事件A的发生几率从新评估，称为A的后验几率，用P(A|B)表示；
3）相似的，事件A发生以前，咱们对事件B的发生有一个基本的几率判断，称为B的先验几率，用P(B)表示；
4）一样，事件A发生以后，咱们对事件B的发生几率从新评估，称为B的后验几率，用P(B|A)表示。

贝叶斯定理的公式表达式：
P(A|B)=P(B|A)P(A)P(B)
P(A|B)=P(B|A)P(A)P(B)
35.#include <filename.h> 和#include“filename.h”有什么区别？

知识点连接：#include<filename.h> 和 #include”filename.h”有什么区别

36.某超市研究销售纪录数据后发现，买啤酒的人很大几率也会购买尿布，这种属于数据挖掘的哪类问题？(A)
A. 关联规则发现 B. 聚类 C. 分类 D. 天然语言处理

37.将原始数据进行集成、变换、维度规约、数值规约是在如下哪一个步骤的任务？(C)
A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘

38.下面哪一种不属于数据预处理的方法？ (D)
A变量代换 B离散化 C 汇集 D 估计遗漏值

39.什么是KDD？ (A)
A. 数据挖掘与知识发现 B. 领域知识发现C. 文档知识发现 D. 动态知识发现

40.当不知道数据所带标签时，能够使用哪一种技术促使带同类标签的数据与带其余标签的数据相分离？(B)
A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链

41.创建一个模型，经过这个模型根据已知的变量值来预测其余某个变量值属于数据挖掘的哪一类任务？(C)
A. 根据内容检索 B. 建模描述
C. 预测建模 D. 寻找模式和规则

42.如下哪一种方法不属于特征选择的标准方法？(D)
A嵌入 B 过滤 C 包装 D 抽样

43.请用python编写函数find_string，从文本中搜索并打印内容，要求支持通配符星号和问号。

find_string('hello\nworld\n','wor')
['wor']
find_string('hello\nworld\n','l*d')
['ld']
find_string('hello\nworld\n','o.')
['or']
答案
def find_string(str,pat):
import re
return re.findall(pat,str,re.I)
1
2
3
4
5
6
7
8
9
10
44.说下红黑树的五个性质。

教你初步了解红黑树

45.简单说下sigmoid激活函数。

经常使用的非线性激活函数有sigmoid、tanh、relu等等，前二者sigmoid/tanh比较常见于全链接层，后者relu常见于卷积层。这里先简要介绍下最基础的sigmoid函数（btw，在本博客中SVM那篇文章开头有提过）。

Sigmoid的函数表达式以下：

也就是说，Sigmoid函数的功能是至关于把一个实数压缩至0到1之间。当z是很是大的正数时，g(z)会趋近于1，而z是很是小的负数时，则g(z)会趋近于0。

压缩至0到1有何用处呢？用处是这样一来即可以把激活函数看做一种“分类的几率”，好比激活函数的输出为0.9的话即可以解释为90%的几率为正样本。

举个例子，以下图（图引自Stanford机器学习公开课）：

46.什么是卷积?

对图像（不一样的数据窗口数据）和滤波矩阵（一组固定的权重：由于每一个神经元的多个权重固定，因此又能够看作一个恒定的滤波器filter）作内积（逐个元素相乘再求和）的操做就是所谓的『卷积』操做，也是卷积神经网络的名字来源。
非严格意义上来说，下图中红框框起来的部分即可以理解为一个滤波器，即带着一组固定权重的神经元。多个滤波器叠加便成了卷积层。

OK，举个具体的例子。好比下图中，图中左边部分是原始输入数据，图中中间部分是滤波器filter，图中右边是输出的新的二维数据。

分解下上图

47.什么是CNN的池化pool层?

池化，简言之，即取区域平均或最大，以下图所示（图引自cs231n）:

上图所展现的是取区域最大，即上图左边部分中左上角2x2的矩阵中6最大，右上角2x2的矩阵中8最大，左下角2x2的矩阵中3最大，右下角2x2的矩阵中4最大，因此获得上图右边部分的结果：6 8 3 4。很简单不是？

48.简述下什么是生成对抗网络。

GAN之因此是对抗的，是由于GAN的内部是竞争关系，一方叫generator，它的主要工做是生成图片，而且尽可能使得其看上去是来自于训练样本的。另外一方是discriminator，其目标是判断输入图片是否属于真实训练样本。
更直白的讲，将generator想象成假币制造商，而discriminator是警察。generator目的是尽量把假币造的跟真的同样，从而可以骗过discriminator，即生成样本并使它看上去好像来自于真实训练样本同样。

以下图中的左右两个场景：

更多请参见此课程：生成对抗网络

49.学梵高做画的原理是啥？

这里有篇如何作梵高风格画的实验教程教你从头至尾利用DL学梵高做画：GTX 1070 cuda 8.0 tensorflow gpu版，至于其原理请看这个视频：NeuralStyle艺术化图片（学梵高做画背后的原理）。

50.如今有 a 到 z 26 个元素，编写程序打印 a 到 z 中任取 3 个元素的组合（好比打印 a b c ，d y z等）。

一道百度机器学习工程师职位的面试题

51.哪些机器学习算法不须要作归一化处理？

几率模型不须要归一化，由于它们不关心变量的值，而是关心变量的分布和变量之间的条件几率，如决策树、RF。而像Adaboost、GBDT、XGBoost、SVM、LR、KNN、KMeans之类的最优化问题就须要归一化。

52.说说梯度降低法。

@LeftNotEasy

机器学习中的数学(1)-回归(regression)、梯度降低(gradient descent)

53.梯度降低法找到的必定是降低最快的方向么？

梯度降低法并非降低最快的方向，它只是目标函数在当前的点的切平面（固然高维问题不能叫平面）上降低最快的方向。在Practical Implementation中，牛顿方向（考虑海森矩阵）才通常被认为是降低最快的方向，能够达到Superlinear的收敛速度。梯度降低类的算法的收敛速度通常是Linear甚至Sublinear的（在某些带复杂约束的问题）。

知识点连接：一文清晰讲解机器学习中梯度降低算法（包括其变式算法）

54.牛顿法和梯度降低法有什么不一样？

@wtq1993

知识点连接：机器学习中常见的最优化算法

55.什么是拟牛顿法（Quasi-Newton Methods）？

@wtq1993

机器学习中常见的最优化算法

56.请说说随机梯度降低法的问题和挑战？

57.说说共轭梯度法？

@wtq1993

机器学习中常见的最优化算法

58.对全部优化问题来讲, 有没有可能找到比現在已知算法更好的算法?

答案连接

5九、什么最小二乘法？

咱们口头中常常说：通常来讲，平均来讲。如平均来讲，不吸烟的健康优于吸烟者，之因此要加“平均”二字，是由于凡事皆有例外，总存在某个特别的人他吸烟但因为常常锻炼因此他的健康情况可能会优于他身边不吸烟的朋友。而最小二乘法的一个最简单的例子即是算术平均。

最小二乘法（又称最小平方法）是一种数学优化技术。它经过最小化偏差的平方和寻找数据的最佳函数匹配。利用最小二乘法能够简便地求得未知的数据，并使得这些求得的数据与实际数据之间偏差的平方和为最小。用函数表示为：

因为算术平均是一个历经考验的方法，而以上的推理说明，算术平均是最小二乘的一个特例，因此从另外一个角度说明了最小二乘方法的优良性，使咱们对最小二乘法更加有信心。

最小二乘法发表以后很快获得了你们的承认接受，并迅速的在数据分析实践中被普遍使用。不过历史上又有人把最小二乘法的发明归功于高斯，这又是怎么一回事呢。高斯在1809年也发表了最小二乘法，而且声称本身已经使用这个方法多年。高斯发明了小行星定位的数学方法，并在数据分析中使用最小二乘方法进行计算，准确的预测了谷神星的位置。

对了，最小二乘法跟SVM有什么联系呢？请参见支持向量机通俗导论（理解SVM的三层境界）。

60、看你T恤上印着：人生苦短，我用Python，你能否说说Python究竟是什么样的语言？你能够比较其余技术或者语言来回答你的问题。

15个重要Python面试题测测你适不适合作Python？

61.Python是如何进行内存管理的？

2017 Python最新面试题及答案16道题

62.请写出一段Python代码实现删除一个list里面的重复元素。

一、使用set函数，set(list)；
二、使用字典函数：

a=[1,2,4,2,4,5,6,5,7,8,9,0]
b={}
b=b.fromkeys(a)
c=list(b.keys())
c
1
2
3
4
5
63.编程用sort进行排序，而后从最后一个元素开始判断。

a=[1,2,4,2,4,5,7,10,5,5,7,8,9,0,3]

a.sort()
last=a[-1]
for i inrange(len(a)-2,-1,-1):
if last==a[i]:
del a[i]
else:last=a[i]
print(a)
1
2
3
4
5
6
7
8
9
64.Python里面如何生成随机数？

@Tom_junsong

random模块

随机整数：random.randint(a,b)：返回随机整数x,a<=x<=b
random.randrange(start,stop,[,step])：返回一个范围在(start,stop,step)之间的随机整数，不包括结束值。
随机实数：random.random( ):返回0到1之间的浮点数
random.uniform(a,b):返回指定范围内的浮点数。

65.说说常见的损失函数。

对于给定的输入X，由f(X)给出相应的输出Y，这个输出的预测值f(X)与真实值Y可能一致也可能不一致（要知道，有时损失或偏差是不可避免的），用一个损失函数来度量预测错误的程度。损失函数记为L(Y, f(X))。
经常使用的损失函数有如下几种（基本引用自《统计学习方法》）：

66.简单介绍下Logistics回归。

Logistic回归目的是从特征学习出一个0/1分类模型，而这个模型是将特性的线性组合做为自变量，因为自变量的取值范围是负无穷到正无穷。所以，使用logistic函数（或称做sigmoid函数）将自变量映射到(0,1)上，映射后的值被认为是属于y=1的几率。

假设函数：
hθ(x)=g(θTx)=11+e−θTx
hθ(x)=g(θTx)=11+e−θTx

其中x是n维特征向量，函数g就是Logistic函数。而：g(z)=11+e−zg(z)=11+e−z的图像是：

能够看到，将无穷映射到了(0,1)。而假设函数就是特征属于y=1的几率。

P(y=1|x;θ)=hθ(x)；P(y=0|x;θ)=1−hθ(x)
P(y=1|x;θ)=hθ(x)；P(y=0|x;θ)=1−hθ(x)

67.看你是搞视觉的，熟悉哪些CV框架，顺带聊聊CV最近五年的发展史如何？

答案解析

68.深度学习在视觉领域有何前沿进展？

@元峰

本题解析来源：深度学习在计算机视觉领域的前沿进展

69.HashMap与HashTable区别？

HashMap与Hashtable的区别

70.在分类问题中,咱们常常会遇到正负样本数据量不等的状况,好比正样本为10w条数据,负样本只有1w条数据,如下最合适的处理方法是( )

A、将负样本重复10次,生成10w样本量,打乱顺序参与分类
B、直接进行分类,能够最大限度利用数据
C、从10w正样本中随机抽取1w参与分类
D、将负样本每一个权重设置为10,正样本权重为1,参与训练过程

@管博士：准确的说，其实选项中的这些方法各有优缺点，须要具体问题具体分析，有篇文章对各类方法的优缺点进行了分析，讲的不错感兴趣的同窗能够参考一下：

How to handle Imbalanced Classification Problems in machine learning?

71.深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，如今须要计算三个稠密矩阵A,B,C的乘积ABC,假90设三个矩阵的尺寸分别为m∗n，n∗p，p∗q，且m <n <p <q，如下计算顺序效率最高的是（A）

A.(AB)C
B.AC(B)
C.A(BC)
D.因此效率都相同

正确答案：A
@BlackEyes_SGC： m*n*p <m*n*q,m*p*q < n*p*q, 因此 (AB)C 最小

72.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:( C )

A.各种别的先验几率P(C)是相等的
B.以0为均值，sqr(2)/2为标准差的正态分布
C.特征变量X的各个维度是类别条件独立随机变量
D.P(X|C)是高斯分布

正确答案：C
@BlackEyes_SGC：朴素贝叶斯的条件就是每一个变量相互独立。

73.关于支持向量机SVM,下列说法错误的是（C）

A.L2正则项，做用是最大化分类间隔，使得分类器拥有更强的泛化能力
B.Hinge 损失函数，做用是最小化经验分类错误
C.分类间隔为1||w||1||w||，||w||表明向量的模
D.当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

正确答案：C
@BlackEyes_SGC：
A正确。考虑加入正则化项的缘由：想象一个完美的数据集，y>1是正类，y<-1是负类，决策面y=0，加入一个y=-30的正类噪声样本，那么决策面将会变“歪”不少，分类间隔变小，泛化能力减少。加入正则项以后，对噪声样本的容错能力加强，前面提到的例子里面，决策面就会没那么“歪”了，使得分类间隔变大，提升了泛化能力。
B正确。
C错误。间隔应该是2||w||2||w||才对，后半句应该没错，向量的模一般指的就是其二范数。
D正确。考虑软间隔的时候，C对优化问题的影响就在于把a的范围从[0，+inf]限制到了[0,C]。C越小，那么a就会越小，目标函数拉格朗日函数导数为0能够求出w=∑iai∗yi∗xiw=∑iai∗yi∗xi，a变小使得w变小，所以间隔2||w||2||w||变大

74.在HMM中,若是已知观察序列和产生观察序列的状态序列,那么可用如下哪一种方法直接进行参数估计( D )

A.EM算法
B.维特比算法
C.前向后向算法
D.极大似然估计

正确答案：D
@BlackEyes_SGC：
EM算法：只有观测序列，无状态序列时来学习模型参数，即Baum-Welch算法
维特比算法：用动态规划解决HMM的预测问题，不是参数估计
前向后向算法：用来算几率
极大似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，用来估计参数
注意的是在给定观测序列和对应的状态序列估计模型参数，能够利用极大似然发估计。若是给定观测序列，没有对应的状态序列，才用EM，将状态序列看不不可测的隐数据。

75.假定某同窗使用Naive Bayesian（NB）分类模型时，不当心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是：(BD)

A.这个被重复的特征在模型中的决定做用会被增强
B.模型效果相比无重复特征的状况下精确度会下降
C.若是全部特征都被重复一遍，获得的模型预测结果相对于不重复的状况下的模型预测结果同样。
D.当两列特征高度相关时，没法用两列特征相同时所获得的结论来分析问题
E.NB能够用来作最小二乘回归
F.以上说法都不正确

正确答案：BD
@BlackEyes_SGC：NB的核心在于它假设向量的全部份量之间是独立的。在贝叶斯理论系统中，都有一个重要的条件独立性假设：假设全部特征之间相互独立，这样才能将联合几率拆分。

76.如下哪些方法不能够直接来对文本分类？(A)

A、Kmeans
B、决策树
C、支持向量机
D、KNN

正确答案: A分类不一样于聚类。
@BlackEyes_SGC：A：Kmeans是聚类方法，典型的无监督学习方法。分类是监督学习方法，BCD都是常见的分类方法。

77.已知一组数据的协方差矩阵P,下面关于主份量说法错误的是( C )

A、主份量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量份量的条件下,以均方偏差计算截尾偏差最小
B、在经主份量分解后,协方差矩阵成为对角矩阵
C、主份量分析就是K-L变换
D、主份量是经过求协方差矩阵的特征值获得

正确答案: C
@BlackEyes_SGC：K-L变换与PCA变换是不一样的概念，PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵能够有不少种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。

78.Kmeans的复杂度？

时间复杂度：O(tKmn)，其中，t为迭代次数，K为簇的数目，m为记录数，n为维数空间复杂度：O((m+K)n)，其中，K为簇的数目，m为记录数，n为维数。

具体参考：机器学习之深刻理解K-means、与KNN算法区别及其代码实现

79.关于Logit 回归和SVM 不正确的是（A）

A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，然后验几率正比于先验几率和似然函数的乘积。logit仅仅是最大化似然函数，并无最大化后验几率，更谈不上最小化后验几率。A错误
B. Logit回归的输出就是样本属于正类别的概率，能够计算出几率，正确
C. SVM的目标是找到使得训练数据尽量分开且分类间隔最大的超平面，应该属于结构风险最小化。
D. SVM能够经过正则化系数控制模型的复杂度，避免过拟合。

@BlackEyes_SGC：Logit回归目标函数是最小化后验几率，Logit回归能够用于预测事件发生几率的大小，SVM目标是结构风险最小化，SVM能够有效避免模型过拟合。

80.输入图片大小为200×200，依次通过一层卷积（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一层卷积（kernel size 3×3，padding 1，stride 1）以后，输出特征图大小为：（）

正确答案：97

@BlackEyes_SGC：计算尺寸不被整除只在GoogLeNet中遇到过。卷积向下取整，池化向上取整。

本题（200-5+2*1）/2+1 为99.5，取99
（99-3）/1+1 为97
（97-3+2*1）/1+1 为97

研究过网络的话看到stride为1的时候，当kernel为 3 padding为1或者kernel为5 padding为2 一看就是卷积先后尺寸不变。计算GoogLeNet全过程的尺寸也同样。

81.影响聚类算法结果的主要因素有（BCD ）
A.已知类别的样本质量；
B.分类准则；
C.特征选取；
D.模式类似性测度

82.模式识别中，马式距离较之于欧式距离的优势是（CD）
A. 平移不变性；
B. 旋转不变性；
C. 尺度不变性；
D. 考虑了模式的分布

83.影响基本K-均值算法的主要因素有(ABD）
A. 样本输入顺序；
B. 模式类似性测度；
C. 聚类准则；
D. 初始类中心的选取

84.在统计模式分类问题中，当先验几率未知时，能够使用（BD）
A. 最小损失准则；
B. 最小最大损失准则；
C. 最小误判几率准则；
D. N-P判决

85.若是以特征向量的相关系数做为模式类似性测度，则影响聚类算法结果的主要因素有（BC）
A. 已知类别样本质量；
B. 分类准则；
C. 特征选取；
D. 量纲

86.欧式距离具备（AB ）；马式距离具备（ABCD ）。
A. 平移不变性；
B. 旋转不变性；
C. 尺度缩放不变性；
D. 不受量纲影响的特性

87.你有哪些Deep Learning（RNN，CNN）调参的经验？

答案解析，来自知乎

88.简单说说RNN的原理。

咱们升学到高三准备高考时，此时的知识是由高二及高二以前所学的知识加上高三所学的知识合成得来，即咱们的知识是由前序铺垫，是有记忆的，比如当电影字幕上出现：“我是”时，你会很天然的联想到：“我是中国人”。

89.什么是RNN？

@一只鸟的天空，本题解析来源：

循环神经网络(RNN, Recurrent Neural Networks)介绍

90.RNN是怎么从单层网络一步一步构造的的?

@何之源，本题解析来源：

彻底图解RNN、RNN变体、Seq2Seq、Attention机制

101.深度学习（CNN RNN Attention）解决大规模文本分类问题。

用深度学习（CNN RNN Attention）解决大规模文本分类问题 - 综述和实践

102.如何解决RNN梯度爆炸和弥散的问题的？

深度学习与天然语言处理(7)_斯坦福cs224d 语言模型，RNN，LSTM与GRU

103.如何提升深度学习的性能？

机器学习系列(10)_如何提升深度学习(和机器学习)的性能

104.RNN、LSTM、GRU区别？

@我愛大泡泡，本题解析来源：

面试笔试整理3：深度学习机器学习面试问题准备（必会）

105.当机器学习性能遭遇瓶颈时，你会如何优化的？

能够从这4个方面进行尝试：基于数据、借助算法、用算法调参、借助模型融合。固然能谈多细多深刻就看你的经验心得了。

这里有一份参考清单：机器学习系列(20)_机器学习性能改善备忘单

106.作过什么样的机器学习项目？好比如何从零构建一个推荐系统？

推荐系统的公开课http://www.julyedu.com/video/play/18/148，另，再推荐一个课程：机器学习项目班 [10次纯项目讲解，100%纯实战]（https://www.julyedu.com/course/getDetail/48）。

107.什么样的资料集不适合用深度学习?

@抽象猴，来源：

知乎解答

108.广义线性模型是怎被应用在深度学习中?

@许韩，来源：

知乎解答

109.准备机器学习面试应该了解哪些理论知识？

知乎解答

110.标准化与归一化的区别?

简单来讲，标准化是依照特征矩阵的列处理数据，其经过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其余核函数计算类似性时，拥有统一的标准，也就是说都转化为“单位向量”。规则为L2的归一化公式以下：

特征向量的缺失值处理：

1.缺失值较多.直接将该特征舍弃掉，不然可能反倒会带入较大的noise，对结果形成不良影响。
2.缺失值较少,其他的特征缺失值都在10%之内，咱们能够采起不少的方式来处理:

1) 把NaN直接做为一个特征，假设用0表示；
2) 用均值填充；
3) 用随机森林等算法预测填充

111.随机森林如何处理缺失值。

方法一（na.roughfix）简单粗暴，对于训练集,同一个class下的数据，若是是分类变量缺失，用众数补上，若是是连续型变量缺失，用中位数补。
方法二（rfImpute）这个方法计算量大，至于比方法一好坏？很差判断。先用na.roughfix补上缺失值，而后构建森林并计算proximity matrix，再回头看缺失值，若是是分类变量，则用没有阵进行加权平均的方法补缺失值。而后迭代4-6次，这个补缺失值的思想和KNN有些相似1缺失的观测实例的proximity中的权重进行投票。若是是连续型变量，则用proximity矩2。

112.随机森林如何评估特征重要性。

衡量变量重要性的方法有两种，Decrease GINI 和 Decrease Accuracy：
1) Decrease GINI：对于回归问题，直接使用argmax(VarVarLeftVarRight)做为评判标准，即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。
2) Decrease Accuracy：对于一棵树Tb(x)，咱们用OOB样本能够获得测试偏差1；而后随机改变OOB样本的第j列：保持其余列不变，对第j列进行随机的上下置换，获得偏差2。至此，咱们能够用偏差1-偏差2来刻画变量j的重要性。基本思想就是，若是一个变量j足够重要，那么改变它会极大的增长测试偏差；反之，若是改变它测试偏差没有增大，则说明该变量不是那么的重要。

113.优化Kmeans。

使用Kd树或者Ball Tree
将全部的观测实例构建成一颗kd树，以前每一个聚类中心都是须要和每一个观测点作依次距离计算，如今这些聚类中心根据kd树只须要计算附近的一个局部区域便可。

114.KMeans初始类簇中心点的选取。

K-means++算法选择初始seeds的基本思想就是：初始的聚类中心之间的相互距离要尽量的远。

1.从输入的数据点集合中随机选择一个点做为第一个聚类中心
2.对于数据集中的每个点x，计算它与最近聚类中心(指已选择的聚类中心)的距离D(x)
3.选择一个新的数据点做为新的聚类中心，选择的原则是：D(x)较大的点，被选取做为聚类中心的几率较大
4.重复2和3直到k个聚类中心被选出来
5.利用这k个初始的聚类中心来运行标准的k-means算法

115.解释对偶的概念。

一个优化问题能够从两个角度进行考察，一个是primal 问题，一个是dual 问题，就是对偶问题，通常状况下对偶问题给出主问题最优值的下界，在强对偶性成立的状况下由对偶问题能够获得主问题的最优下界，对偶问题是凸优化问题，能够进行较好的求解，SVM中就是将Primal问题转换为dual问题进行求解，从而进一步引入核函数的思想。

116.如何进行特征选择？

特征选择是一个重要的数据预处理过程，主要有两个缘由：一是减小特征数量、降维，使模型泛化能力更强，减小过拟合;二是加强对特征和特征值之间的理解。

常见的特征选择方式：
1.去除方差较小的特征。
2.正则化。1正则化可以生成稀疏的模型。L2正则化的表现更加稳定，因为有用的特征每每对应系数非零。
3.随机森林，对于分类问题，一般采用基尼不纯度或者信息增益，对于回归问题，一般采用的是方差或者最小二乘拟合。通常不须要feature engineering、调参等繁琐的步骤。它的两个主要问题，1是重要的特征有可能得分很低（关联特征问题），2是这种方法对特征变量类别多的特征越有利（偏向问题）。
4.稳定性选择。是一种基于二次抽样和选择算法相结合较新的方法，选择算法能够是回归、SVM或其余相似的方法。它的主要思想是在不一样的数据子集和特征子集上运行特征选择算法，不断的重复，最终汇总特征选择结果，好比能够统计某个特征被认为是重要特征的频率（被选为重要特征的次数除以它所在的子集被测试的次数）。理想状况下，重要特征的得分会接近100%。稍微弱一点的特征得分会是非0的数，而最无用的特征得分将会接近于0。

117.数据预处理。

1.缺失值，填充缺失值fillna：
i. 离散：None,
ii. 连续：均值。
iii. 缺失值太多，则直接去除该列
2.连续值：离散化。有的模型（如决策树）须要离散值
3.对定量特征二值化。核心在于设定一个阈值，大于阈值的赋值为1，小于等于阈值的赋值为0。如图像操做
4.皮尔逊相关系数，去除高度相关的列

118.简单说说特征工程。

119.你知道有哪些数据处理和特征工程的处理？

120.请对比下Sigmoid、Tanh、ReLu这三个激活函数？

121.Sigmoid、Tanh、ReLu这三个激活函数有什么缺点或不足，有没改进的激活函数？

@我愛大泡泡，来源：

面试笔试整理3：深度学习机器学习面试问题准备（必会）

122.怎么理解决策树、xgboost能处理缺失值？而有的模型(svm)对缺失值比较敏感？

知乎解答

123.为何引入非线性激励函数？

@Begin Again，来源：

知乎解答

若是不用激励函数（其实至关于激励函数是f(x) = x），在这种状况下你每一层输出都是上层输入的线性函数，很容易验证，不管你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果至关，这种状况就是最原始的感知机（Perceptron）了。

正由于上面的缘由，咱们决定引入非线性函数做为激励函数，这样深层神经网络就有意义了（再也不是输入的线性组合，能够逼近任意函数）。最先的想法是Sigmoid函数或者Tanh函数，输出有界，很容易充当下一层输入（以及一些人的生物解释）。

124.请问人工神经网络中为何ReLu要好过于Tanh和Sigmoid function?

@Begin Again，来源：

知乎解答

125.为何LSTM模型中既存在Sigmoid又存在Tanh两种激活函数？

本题解析来源：知乎解答

@beanfrog：两者目的不同：sigmoid 用在了各类gate上，产生0~1之间的值，这个通常只有sigmoid最直接了。tanh 用在了状态和输出上，是对数据的处理，这个用其余激活函数或许也能够。

@hhhh：另可参见A Critical Review of Recurrent Neural Networks for Sequence Learning的section4.1，说了那两个tanh均可以替换成别的。

126.衡量分类器的好坏。

@我愛大泡泡，来源：

答案解析

这里首先要知道TP、FN（真的判成假的）、FP（假的判成真）、TN四种（能够画一个表格）。

几种经常使用的指标：

精度precision = TP/(TP+FP) = TP/~P （~p为预测为真的数量）
召回率 recall = TP/(TP+FN) = TP/ P
F1值： 2/F1 = 1/recall + 1/precision
ROC曲线：ROC空间是一个以伪阳性率（FPR，false positive rate）为X轴，真阳性率（TPR, true positive rate）为Y轴的二维坐标系所表明的平面。其中真阳率TPR = TP / P = recall，伪阳率FPR = FP / N

127.机器学习和统计里面的auc的物理意义是什么？

详情参见机器学习和统计里面的auc怎么理解？

128.观察增益gain, alpha和gamma越大，增益越小？

@AntZ：XGBoost寻找分割点的标准是最大化gain. 考虑传统的枚举每一个特征的全部可能分割点的贪心法效率过低，XGBoost实现了一种近似的算法。大体的思想是根据百分位法列举几个可能成为分割点的候选者，而后从候选者中计算Gain按最大值找出最佳的分割点。它的计算公式分为四项, 能够由正则化项参数调整(lamda为叶子权重平方和的系数, gama为叶子数量)：

第一项是假设分割的左孩子的权重分数, 第二项为右孩子, 第三项为不分割整体分数, 最后一项为引入一个节点的复杂度损失。

由公式可知, gama越大gain越小, lamda越大, gain可能小也可能大。

原问题是alpha而不是lambda, 这里paper上没有提到, XGBoost实现上有这个参数. 上面是我从paper上理解的答案,下面是搜索到的:

如何对XGBoost模型进行参数调优

129.什么形成梯度消失问题? 推导一下。
　　
@许韩，来源：

神经网络的训练中，经过改变神经元的权重，使网络的输出值尽量逼近标签以下降偏差值，训练广泛使用BP算法，核心思想是，计算出输出与标签间的损失函数值，而后计算其相对于每一个神经元的梯度，进行权值的迭代。

梯度消失会形成权值更新缓慢，模型训练难度增长。形成梯度消失的一个缘由是，许多激活函数将输出值挤压在很小的区间内，在激活函数两端较大范围的定义域内梯度为0，形成学习中止。

130.什么是梯度消失和梯度爆炸？

@寒小阳，反向传播中链式法则带来的连乘，若是有数很小趋于0，结果就会特别小（梯度消失）；若是数都比较大，可能结果会很大（梯度爆炸）。

@单车

神经网络训练中的梯度消失与梯度爆炸

131.如何解决梯度消失和梯度膨胀?

（1）梯度消失：
根据链式法则，若是每一层神经元对上一层的输出的偏导乘上权重结果都小于1的话，那么即便这个结果是0.99，在通过足够多层传播以后，偏差对输入层的偏导会趋于0，能够采用ReLU激活函数有效的解决梯度消失的状况。
（2）梯度膨胀
根据链式法则，若是每一层神经元对上一层的输出的偏导乘上权重结果都大于1的话，在通过足够多层传播以后，偏差对输入层的偏导会趋于无穷大，能够经过激活函数来解决。

132.推导下反向传播Backpropagation。

@我愛大泡泡，来源：

推导过程

133.SVD和PCA。

PCA的理念是使得数据投影后的方差最大，找到这样一个投影向量，知足方差最大的条件便可。而通过了去除均值的操做以后，就能够用SVD分解来求解这样一个投影向量，选择特征值最大的方向。

134.数据不平衡问题。

这主要是因为数据分布不平衡形成的。解决方法以下：

1）采样，对小样本加噪声采样，对大样本进行下采样
2）进行特殊的加权，如在Adaboost中或者SVM中
3）采用对不平衡数据集不敏感的算法
4）改变评价标准：用AUC/ROC来进行评价
5）采用Bagging/Boosting/Ensemble等方法
6）考虑数据的先验分布

135.简述神经网络的发展。

MP模型+sgn—->单层感知机（只能线性）+sgn— Minsky 低谷 —>多层感知机+BP+Sigmoid— (低谷) —>深度学习+Pretraining+ReLU/Sigmoid

136.深度学习经常使用方法。

@SmallisBig，来源：

机器学习岗位面试问题汇总之深度学习

137.神经网络模型（Neural Network）因受人类大脑的启发而得名。神经网络由许多神经元（Neuron）组成，每一个神经元接受一个输入，对输入进行处理后给出一个输出。请问下列关于神经元的描述中，哪一项是正确的？（E）

A.每一个神经元只有一个输入和一个输出
B.每一个神经元有多个输入和一个输出
C.每一个神经元有一个输入和多个输出
D.每一个神经元有多个输入和多个输出
E.上述都正确

答案：（E）
每一个神经元能够有一个或多个输入，和一个或多个输出

138.下图是一个神经元的数学表示，

139.在一个神经网络中，知道每个神经元的权重和误差是最重要的一步。若是知道了神经元准确的权重和误差，即可以近似任何函数，但怎么获知每一个神经的权重和偏移呢？（C）

A. 搜索每一个可能的权重和误差组合，直到获得最佳值
B. 赋予一个初始值，而后检查跟最佳值的差值，不断迭代调整权重
C. 随机赋值，听天由命
D. 以上都不正确的

答案：（C）
选项C是对梯度降低的描述。

140.梯度降低算法的正确步骤是什么？( D）

1.计算预测值和真实值之间的偏差
2.重复迭代，直至获得网络权重的最佳值
3.把输入传入网络，获得输出值
4.用随机值初始化权重和误差
5.对每个产生偏差的神经元，调整相应的（权重）值以减少偏差

A. 1, 2, 3, 4, 5
B. 5, 4, 3, 2, 1
C. 3, 2, 1, 5, 4
D. 4, 3, 1, 5, 2

答案：（D）

141.已知：
- 大脑是有不少个叫作神经元的东西构成，神经网络是对大脑的简单的数学表达。
- 每个神经元都有输入、处理函数和输出。
- 神经元组合起来造成了网络，能够拟合任何函数。
- 为了获得最佳的神经网络，咱们用梯度降低方法不断更新模型
给定上述关于神经网络的描述，什么状况下神经网络模型被称为深度学习模型？

A. 加入更多层，使神经网络的深度增长
B. 有维度更高的数据
C. 当这是一个图形识别的问题时
D. 以上都不正确

答案：（A）
更多层意味着网络更深。没有严格的定义多少层的模型才叫深度模型，目前若是有超过2层的隐层，那么也能够及叫作深度模型。

142.卷积神经网络能够对一个输入进行多种变换（旋转、平移、缩放），这个表述正确吗？

答案：错误
把数据传入神经网络以前须要作一系列数据预处理（也就是旋转、平移、缩放）工做，神经网络自己不能完成这些变换。

143.下面哪项操做能实现跟神经网络中Dropout的相似效果？（B）

A. Boosting
B. Bagging
C. Stacking
D. Mapping
　　
答案：B
Dropout能够认为是一种极端的Bagging，每个模型都在单独的数据上训练，同时，经过和其余模型对应参数的共享，从而实现模型参数的高度正则化。

144.下列哪一项在神经网络中引入了非线性？（B）

A. 随机梯度降低
B. 修正线性单元（ReLU）
C. 卷积函数
D .以上都不正确

答案：（B）
修正线性单元是非线性的激活函数。

145.在训练神经网络时，损失函数(loss)在最初的几个epochs时没有降低，可能的缘由是？（A）

A. 学习率(learning rate)过低
B. 正则参数过高
C. 陷入局部最小值
D. 以上都有可能

答案：（A）

146.下列哪项关于模型能力（model capacity）的描述是正确的？（指神经网络模型能拟合复杂函数的能力）（A）

A. 隐藏层层数增长，模型能力增长
B. Dropout的比例增长，模型能力增长
C. 学习率增长，模型能力增长
D. 都不正确

答案：（A）

147.若是增长多层感知机（Multilayer Perceptron）的隐藏层层数，分类偏差便会减少。这种陈述正确仍是错误？

答案：错误
并不老是正确。过拟合可能会致使错误增长。

148.构建一个神经网络，将前一层的输出和它自身做为输入。下列哪种架构有反馈链接？（A）

A. 循环神经网络
B. 卷积神经网络
C. 限制玻尔兹曼机
D. 都不是

答案：（A）

149.下列哪一项在神经网络中引入了非线性？在感知机中（Perceptron）的任务顺序是什么？

1.随机初始化感知机的权重
2.去到数据集的下一批（batch）
3.若是预测值和输出不一致，则调整权重
4.对一个输入样本，计算输出值

答案：1 - 4 - 3 - 2

150.假设你须要调整参数来最小化代价函数（cost function），能够使用下列哪项技术？（D）

A. 穷举搜索
B. 随机搜索
C. Bayesian优化
D. 以上任意一种

答案：（D）

151.在下面哪一种状况下，一阶梯度降低不必定正确工做（可能会卡住）？（B）

答案：（B）

这是鞍点（Saddle Point）的梯度降低的经典例子。另，本题来源于：题目来源

152.下图显示了训练过的3层卷积神经网络准确度，与参数数量(特征核的数量)的关系。

从图中趋势可见，若是增长神经网络的宽度，精确度会增长到一个特定阈值后，便开始下降。形成这一现象的可能缘由是什么？（C）

A. 即便增长卷积核的数量，只有少部分的核会被用做预测
B. 当卷积核数量增长时，神经网络的预测能力（Power）会下降
C. 当卷积核数量增长时，它们之间的相关性增长(correlate)，致使过拟合
D. 以上都不正确

答案：（C）
如C选项指出的那样，可能的缘由是核之间的相关性。

153.假设咱们有一个以下图所示的隐藏层。隐藏层在这个网络中起到了必定的降维做用。假如如今咱们用另外一种维度降低的方法，好比说主成分分析法(PCA)来替代这个隐藏层。那么，这二者的输出效果是同样的吗？

答案：不一样，由于PCA用于相关特征而隐层用于有预测能力的特征。

154.神经网络能组成函数(y=1xy=1x)吗？

答案：能够，由于激活函数能够是互反函数。

155.下列哪一个神经网络结构会发生权重共享？（D）

A. 卷积神经网络
B. 循环神经网络
C. 全链接神经网络
D. 选项A和B
　　
答案：（D）

156.批规范化(Batch Normalization)的好处都有啥？（A）

A. 在将全部的输入传递到下一层以前对其进行归一化（更改）
B. 它将权重的归一化平均值和标准差
C. 它是一种很是有效的反向传播(BP)方法
D. 这些均不是

答案：（A）

157.在一个神经网络中，下面哪一种方法能够用来处理过拟合？（D）
　　
A. Dropout
B. 分批归一化(Batch Normalization)
C. 正则化(regularization)
D. 均可以

答案：（D）

158.若是咱们用了一个过大的学习速率会发生什么？（D）
　　
A. 神经网络会收敛
B. 很差说
C. 都不对
D. 神经网络不会收敛

答案：（D）

159.下图所示的网络用于训练识别字符H和T，以下所示：

网络的输出是什么？（D）

D.多是A或B，取决于神经网络的权重设置

答案：（D）
不知道神经网络的权重和误差是什么，则没法断定它将会给出什么样的输出。

160.假设咱们已经在ImageNet数据集(物体识别)上训练好了一个卷积神经网络。而后给这张卷积神经网络输入一张全白的图片。对于这个输入的输出结果为任何种类的物体的可能性都是同样的，对吗？（D）

A. 对的
B. 不知道
C. 看状况
D. 不对

答案：（D）各个神经元的反应是不同的
　

161.当在卷积神经网络中加入池化层(pooling layer)时，变换的不变性会被保留，是吗？（C）

A. 不知道
B. 看状况
C. 是
D. 否

答案：（C）使用池化时会致使出现不变性。

162.当数据过大以致于没法在RAM中同时处理时，哪一种梯度降低方法更加有效？（A）

A. 随机梯度降低法(Stochastic Gradient Descent)
B. 不知道
C. 整批梯度降低法(Full Batch Gradient Descent)
D. 都不是

答案：（A）

163.下图是一个利用sigmoid函数做为激活函数的含四个隐藏层的神经网络训练的梯度降低图。这个神经网络遇到了梯度消失的问题。下面哪一个叙述是正确的？（A）

A. 第一隐藏层对应D，第二隐藏层对应C，第三隐藏层对应B，第四隐藏层对应A
B. 第一隐藏层对应A，第二隐藏层对应C，第三隐藏层对应B，第四隐藏层对应D
C. 第一隐藏层对应A，第二隐藏层对应B，第三隐藏层对应C，第四隐藏层对应D
D. 第一隐藏层对应B，第二隐藏层对应D，第三隐藏层对应C，第四隐藏层对应A

答案：（A）因为反向传播算法进入起始层，学习能力下降，这就是梯度消失。

164.对于一个分类任务，若是开始时神经网络的权重不是随机赋值的，二是都设成0，下面哪一个叙述是正确的？（C）

A. 其余选项都不对
B. 没啥问题，神经网络会正常开始训练
C. 神经网络能够训练，可是全部的神经元最后都会变成识别一样的东西
D. 神经网络不会开始训练，由于没有梯度改变

答案：（C）

165.下图显示，当开始训练时，偏差一直很高，这是由于神经网络在往全局最小值前进以前一直被卡在局部最小值里。为了不这种状况，咱们能够采起下面哪一种策略？（A）

A. 改变学习速率，好比一开始的几个训练周期不断更改学习速率
B. 一开始将学习速率减少10倍，而后用动量项(momentum)
C. 增长参数数目，这样神经网络就不会卡在局部最优处
D. 其余都不对

答案：（A）
选项A能够将陷于局部最小值的神经网络提取出来。

166.对于一个图像识别问题(在一张照片里找出一只猫)，下面哪一种神经网络能够更好地解决这个问题？（D）

A. 循环神经网络
B. 感知机
C. 多层感知机
D. 卷积神经网络

卷积神经网络将更好地适用于图像相关问题，由于考虑到图像附近位置变化的固有性质。

答案：（D）

167.假设在训练中咱们忽然遇到了一个问题，在几回循环以后，偏差瞬间下降。你认为数据有问题，因而你画出了数据而且发现也许是数据的偏度过大形成了这个问题。

你打算怎么作来处理这个问题？（D）

A. 对数据做归一化
B. 对数据取对数变化
C. 都不对
D. 对数据做主成分分析(PCA)和归一化

答案：（D）
首先将相关的数据去掉，而后将其置零。

168.下面那个决策边界是神经网络生成的？（E）

A. A
B. D
C. C
D. B
E. 以上都有

答案：（E）

169.在下图中，咱们能够观察到偏差出现了许多小的”涨落”。这种状况咱们应该担忧吗？（B）

A. 须要，这也许意味着神经网络的学习速率存在问题
B. 不须要，只要在训练集和交叉验证集上有累积的降低就能够了
C. 不知道
D. 很差说

答案：（B）
选项B是正确的，为了减小这些“起伏”，能够尝试增长批尺寸(batch size)。

170.在选择神经网络的深度时，下面那些参数须要考虑？（C）

1 神经网络的类型(如MLP,CNN)
2 输入数据
3 计算能力(硬件和软件能力决定)
4 学习速率
5 映射的输出函数

A. 1,2,4,5
B. 2,3,4,5
C. 都须要考虑
D. 1,3,4,5

答案：（C）
全部上述因素对于选择神经网络模型的深度都是重要的。

171.考虑某个具体问题时，你可能只有少许数据来解决这个问题。不过幸运的是你有一个相似问题已经预先训练好的神经网络。能够用下面哪一种方法来利用这个预先训练好的网络？（C）

A. 把除了最后一层外全部的层都冻住，从新训练最后一层
B. 对新数据从新训练整个模型
C. 只对最后几层进行调参(fine tune)
D. 对每一层模型进行评估，选择其中的少数来用

答案：（C）

172.增长卷积核的大小对于改进卷积神经网络的效果是必要的吗？

答案：不是，增长核函数的大小不必定会提升性能。这个问题在很大程度上取决于数据集。

173.请简述神经网络的发展史。

@SIY.Z。本题解析来源：

浅析 Hinton 最近提出的 Capsule 计划

174.说说spark的性能调优。

https://tech.meituan.com/spark-tuning-basic.html
https://tech.meituan.com/spark-tuning-pro.html

175.机器学习中，有哪些特征选择的工程方法？

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

1.计算每个特征与响应变量的相关性：工程上经常使用的手段有计算皮尔逊系数和互信息系数，皮尔逊系数只能衡量线性相关性而互信息系数可以很好地度量各类相关性，可是计算相对复杂一些，好在不少toolkit里边都包含了这个工具（如sklearn的MINE），获得相关性以后就能够排序选择特征了；
2.构建单个特征的模型，经过模型的准确性为特征排序，借此来选择特征；
3.经过L1正则项来选择特征：L1正则方法具备稀疏解的特性，所以自然具有特征选择的特性，可是要注意，L1没有选到的特征不表明不重要，缘由是两个具备高相关性的特征可能只保留了一个，若是要肯定哪一个特征重要应再经过L2正则方法交叉检验*；
4.训练可以对特征打分的预选模型：RandomForest和Logistic Regression等都能对模型的特征打分，经过打分得到相关性后再训练最终模型；
5.经过特征组合后再来选择特征：如对用户id和用户特征最组合来得到较大的特征集再来选择特征，这种作法在推荐系统和广告系统中比较常见，这也是所谓亿级甚至十亿级特征的主要来源，缘由是用户数据比较稀疏，组合特征可以同时兼顾全局模型和个性化模型，这个问题有机会能够展开讲。
6.经过深度学习来进行特征选择：目前这种手段正在随着深度学习的流行而成为一种手段，尤为是在计算机视觉领域，缘由是深度学习具备自动学习特征的能力，这也是深度学习又叫unsupervised feature learning的缘由。从深度学习模型中选择某一神经层的特征后就能够用来进行最终目标模型的训练了。

176.常见的分类算法有哪些？

SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯

177.常见的监督学习算法有哪些？

感知机、SVM、人工神经网络、决策树、逻辑回归

178.在其余条件不变的前提下，如下哪一种作法容易引发机器学习中的过拟合问题（D）

A. 增长训练集量
B. 减小神经网络隐藏层节点数
C. 删除稀疏的特征
D. SVM算法中使用高斯核/RBF核代替线性核

正确答案：（D）

@刘炫320

通常状况下，越复杂的系统，过拟合的可能性就越高，通常模型相对简单的话泛化能力会更好一点。

B.通常认为，增长隐层数能够下降网络偏差（也有文献认为不必定能有效下降），提升精度，但也使网络复杂化，从而增长了网络的训练时间和出现“过拟合”的倾向， svm高斯核函数比线性核函数模型更复杂，容易过拟合

D.径向基(RBF)核函数/高斯核函数的说明,这个核函数能够将原始空间映射到无穷维空间。对于参数，若是选的很大，高次特征上的权重实际上衰减得很是快，实际上（数值上近似一下）至关于一个低维的子空间；反过来，若是选得很小，则能够将任意的数据映射为线性可分——固然，这并不必定是好事，由于随之而来的多是很是严重的过拟合问题。不过，总的来讲，经过调整参数，高斯核实际上具备至关高的灵活性，也是使用最普遍的核函数之一。

179.下列时间序列模型中,哪个模型能够较好地拟合波动性的分析和预测？（D）

A. AR模型
B. MA模型
C. ARMA模型
D. GARCH模型

正确答案：（D）

@刘炫320

R模型是一种线性预测，即已知N个数据，可由模型推出第N点前面或后面的数据（设推出P点），因此其本质相似于插值。

MA模型(moving average model)滑动平均模型，其中使用趋势移动平均法创建直线趋势的预测模型。

ARMA模型(auto regressive moving average model)自回归滑动平均模型，模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能，但其参数估算比较繁琐。

GARCH模型称为广义ARCH模型，是ARCH模型的拓展，由Bollerslev(1986)发展起来的。它是ARCH模型的推广。GARCH(p,0)模型，至关于ARCH(p)模型。GARCH模型是一个专门针对金融数据所量体订作的回归模型，除去和普通回归模型相同的之处，GARCH对偏差的方差进行了进一步的建模。特别适用于波动性的分析和预测，这样的分析对投资者的决策能起到很是重要的指导性做用，其意义不少时候超过了对数值自己的分析和预测。

180.如下哪一个属于线性分类器最佳准则?（ACD）

A. 感知准则函数
B.贝叶斯分类
C.支持向量机
D.Fisher准则

正确答案：（ACD）

@刘炫320

线性分类器有三大类：感知器准则函数、SVM、Fisher准则，而贝叶斯分类器不是线性分类器。

感知准则函数：准则函数以使错分类样本到分界面距离之和最小为原则。其优势是经过错分类样本提供的信息对分类器函数进行修正，这种准则是人工神经元网络多层感知器的基础。

支持向量机：基本思想是在两类线性可分条件下，所设计的分类器界面使两类之间的间隔为最大，它的基本出发点是使指望泛化风险尽量小。（使用核函数可解决非线性问题）

Fisher 准则：更普遍的称呼是线性判别分析（LDA），将全部样本投影到一条远点出发的直线，使得同类样本距离尽量小，不一样类样本距离尽量大，具体为最大化“广义瑞利商”。

根据两类样本通常类内密集，类间分离的特色，寻找线性分类器最佳的法线向量方向，使两类样本在该方向上的投影知足类内尽量密集，类间尽量分开。这种度量经过类内离散矩阵SwSw和类间离散矩阵SbSb实现。

181.基于二次准则函数的H-K算法较之于感知器算法的优势是（BD）?

A. 计算量小
B. 能够判别问题是否线性可分
C. 其解彻底适用于非线性可分的状况
D. 其解的适应性更好

正确答案：（BD）

@刘炫320

HK算法思想很朴实,就是在最小均方偏差准则下求得权矢量。
他相对于感知器算法的优势在于，他适用于线性可分和非线性可分得状况，对于线性可分的状况,给出最优权矢量，对于非线性可分得状况，可以判别出来，以退出迭代过程。

182.如下说法中正确的是（BD）？

A. SVM对噪声(如来自其余分布的噪声样本)鲁棒
B. 在AdaBoost算法中,全部被分错的样本的权重更新比例相同
C. Boosting和Bagging都是组合多个分类器投票的方法,两者都是根据单个分类器的正确率决定其权重
D. 给定n个数据点,若是其中一半用于训练,通常用于测试,则训练偏差和测试偏差之间的差异会随着n的增长而减小

正确答案：（BD）

@刘炫320

A、SVM对噪声（如来自其余分布的噪声样本）鲁棒
　　SVM自己对噪声具备必定的鲁棒性，但实验证实，是当噪声率低于必定水平的噪声对SVM没有太大影响，但随着噪声率的不断增长，分类器的识别率会下降。
B、在AdaBoost算法中全部被分错的样本的权重更新比例相同
　　AdaBoost算法中不一样的训练集是经过调整每一个样本对应的权重来实现的。开始时，每一个样本对应的权重是相同的，即其中n为样本个数，在此样本分布下训练出一弱分类器。对于分类错误的样本，加大其对应的权重；而对于分类正确的样本，下降其权重，这样分错的样本就被凸显出来，从而获得一个新的样本分布。在新的样本分布下，再次对样本进行训练，获得弱分类器。以此类推，将全部的弱分类器重叠加起来，获得强分类器。
C、Boost和Bagging都是组合多个分类器投票的方法，两者均是根据单个分类器的正确率决定其权重。
　　Bagging与Boosting的区别：
　　取样方式不一样。
　　Bagging采用均匀取样，而Boosting根据错误率取样。
　　Bagging的各个预测函数没有权重，而Boosting是有权重的。
　　Bagging的各个预测函数能够并行生成，而Boosing的各个预测函数只能顺序生成。

183.输入图片大小为200×200，依次通过一层卷积（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一层卷积（kernel size 3×3，padding 1，stride 1）以后，输出特征图大小为（C）：

A. 95
B. 96
C. 97
D. 98

正确答案：（C）

@刘炫320

首先咱们应该知道卷积或者池化后大小的计算公式：
out_height=（(input_height - filter_height + padding_top+padding_bottom)/stride_height ）+1
out_width=（(input_width - filter_width + padding_left+padding_right)/stride_width ）+1

其中，padding指的是向外扩展的边缘大小，而stride则是步长，即每次移动的长度。

这样一来就容易多了，首先长宽通常大，因此咱们只须要计算一个维度便可，这样，通过第一次卷积后的大小为: （200-5+2）/2+1，取99；通过第一次池化后的大小为：（99-3）/1+1 为97；通过第二次卷积后的大小为：（97-3+2）/1+1 为97。

184.在SPSS的基础分析模块中，做用是“以行列表的形式揭示数据之间的关系”的是（C）

A. 数据描述
B. 相关
C. 交叉表
D. 多重相应

正确答案：（C ）

185.一监狱人脸识别准入系统用来识别待进入人员的身份，此系统一共包括识别4种不一样的人员：狱警，小偷，送餐员，其余。下面哪一种学习方法最适合此种应用需求：（B）。

A. 二分类问题
B. 多分类问题
C. 层次聚类问题
D. k-中心点聚类问题
E. 回归问题
F. 结构分析问题
　　
正确答案：（B）

@刘炫320

　　二分类：每一个分类器只能把样本分为两类。监狱里的样本分别为狱警、小偷、送餐员、其余。二分类肯定行不通。瓦普尼克95年提出来基础的支持向量机就是个二分类的分类器，这个分类器学习过程就是解一个基于正负二分类推导而来的一个最优规划问题（对偶问题），要解决多分类问题就要用决策树把二分类的分类器级联，VC维的概念就是说的这事的复杂度。
　　层次聚类：建立一个层次等级以分解给定的数据集。监狱里的对象分别是狱警、小偷、送餐员、或者其他，他们等级应该是平等的，因此不行。此方法分为自上而下（分解）和自下而上（合并）两种操做方式。
　　K-中心点聚类：挑选实际对象来表明簇，每一个簇使用一个表明对象。它是围绕中心点划分的一种规则，因此这里并不合适。
　　回归分析：处理变量之间具备相关性的一种统计方法，这里的狱警、小偷、送餐员、其余之间并无什么直接关系。
　　结构分析：结构分析法是在统计分组的基础上，计算各组成部分所占比重，进而分析某一整体现象的内部结构特征、整体的性质、整体内部结构依时间推移而表现出的变化规律性的统计方法。结构分析法的基本表现形式，就是计算结构指标。这里也行不通。
　　多分类问题：针对不一样的属性训练几个不一样的弱分类器，而后将它们集成为一个强分类器。这里狱警、小偷、送餐员以及他某某，分别根据他们的特色设定依据，而后进行区分识别。

186.关于 Logit 回归和 SVM 不正确的是（A）。

A. Logit回归目标函数是最小化后验几率
B. Logit回归能够用于预测事件发生几率的大小
C. SVM目标是结构风险最小化
D. SVM能够有效避免模型过拟合

正确答案：（A）

@刘炫320

　　A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法，然后验几率正比于先验几率和似然函数的乘积。logit仅仅是最大化似然函数，并无最大化后验几率，更谈不上最小化后验几率。而最小化后验几率是朴素贝叶斯算法要作的。A错误
　　B. Logit回归的输出就是样本属于正类别的概率，能够计算出几率，正确
　　C. SVM的目标是找到使得训练数据尽量分开且分类间隔最大的超平面，应该属于结构风险最小化。
　　D. SVM能够经过正则化系数控制模型的复杂度，避免过拟合。

187.有两个样本点，第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是（C）

A. 2x+y=4
B. x+2y=5
C. x+2y=3
D. 2x-y=0

正确答案：（C）

解析：这道题简化了，对于两个点来讲，最大间隔就是垂直平分线，所以求出垂直平分线便可。

188.下面有关分类算法的准确率，召回率，F1 值的描述，错误的是？（C）

A. 准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率
B. 召回率是指检索出的相关文档数和文档库中全部的相关文档数的比率，衡量的是检索系统的查全率
C. 正确率、召回率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高
D. 为了解决准确率和召回率冲突问题，引入了F1分数

正确答案：（C）

解析：对于二类分类问题经常使用的评价指标是精准度（precision）与召回率（recall）。一般以关注的类为正类，其余类为负类，分类器在测试数据集上的预测或正确或不正确，4种状况出现的总数分别记做：
　　TP——将正类预测为正类数
　　FN——将正类预测为负类数
　　FP——将负类预测为正类数
　　TN——将负类预测为负类数
　　由此：
　　精准率定义为：P = TP / (TP + FP)
　　召回率定义为：R = TP / (TP + FN)
　　F1值定义为： F1 = 2 P R / (P + R)
精准率和召回率和F1取值都在0和1之间，精准率和召回率高，F1值也会高，不存在数值越接近0越高的说法，应该是数值越接近1越高。

189.如下几种模型方法属于判别式模型(Discriminative Model)的有（A）
1)混合高斯模型 2)条件随机场模型
3)区分度训练 4)隐马尔科夫模型
　　
A. 2,3
B. 3,4
C. 1,4
D. 1,2

正确答案：（A）

@刘炫320

常见的判别式模型有：Logistic Regression（Logistical 回归）

　　Linear discriminant analysis（线性判别分析）
　　Supportvector machines（支持向量机）
　　Boosting（集成学习）
　　Conditional random fields（条件随机场）
　　Linear regression（线性回归）
　　Neural networks（神经网络）
　　
常见的生成式模型有:Gaussian mixture model and othertypes of mixture model（高斯混合及其余类型混合模型）
　　Hidden Markov model（隐马尔可夫）
　　NaiveBayes（朴素贝叶斯）
　　AODE（平均单依赖估计）
　　Latent Dirichlet allocation（LDA主题模型）
　　Restricted Boltzmann Machine（限制波兹曼机）

生成式模型是根据几率乘出结果，而判别式模型是给出输入，计算出结果。

190.SPSS中，数据整理的功能主要集中在（AD ）等菜单中。

A. 数据
B. 直销
C. 分析
D. 转换
　　
正确答案：（AD ）

@刘炫320

解析：对数据的整理主要在数据和转换功能菜单中。

191.深度学习是当前很热门的机器学习算法，在深度学习中，涉及到大量的矩阵相乘，如今须要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为m∗n，n∗p，p∗q，且m<n<p<q，如下计算顺序效率最高的是（A）

A. (AB)C
B. AC(B)
C. A(BC)
D. 因此效率都相同

正确答案：（A）

@刘炫320

首先，根据简单的矩阵知识，由于 A*B ， A 的列数必须和 B 的行数相等。所以，能够排除 B 选项。

而后，再看 A 、 C 选项。在 A 选项中，m∗n 的矩阵 A 和n∗p的矩阵 B 的乘积，获得 m∗p的矩阵 A*B ，而 A∗B的每一个元素须要 n 次乘法和 n-1 次加法，忽略加法，共须要 m∗n∗p次乘法运算。一样状况分析 A*B 以后再乘以 C 时的状况，共须要 m∗p∗q次乘法运算。所以， A 选项 (AB)C 须要的乘法次数是 m∗n∗p+m∗p∗q 。同理分析， C 选项 A (BC) 须要的乘法次数是 n∗p∗q+m∗n∗q。

因为m∗n∗p<m∗n∗q，m∗p∗q<n∗p∗q，显然 A 运算次数更少，故选 A 。

192.Nave Bayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:( C )

A. 各种别的先验几率P(C)是相等的
B. 以0为均值，sqr(2)/2为标准差的正态分布
C. 特征变量X的各个维度是类别条件独立随机变量
D. P(X|C)是高斯分布

正确答案：( C )

@刘炫320

朴素贝叶斯的条件就是每一个变量相互独立。

193.关于支持向量机SVM,下列说法错误的是（C）

A. L2正则项，做用是最大化分类间隔，使得分类器拥有更强的泛化能力
B. Hinge 损失函数，做用是最小化经验分类错误
C. 分类间隔为1||w||1||w||，||w||表明向量的模
D. 当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习

正确答案：（C）

@刘炫320

A正确。考虑加入正则化项的缘由：想象一个完美的数据集，y>1是正类，y<-1是负类，决策面y=0，加入一个y=-30的正类噪声样本，那么决策面将会变“歪”不少，分类间隔变小，泛化能力减少。加入正则项以后，对噪声样本的容错能力加强，前面提到的例子里面，决策面就会没那么“歪”了，使得分类间隔变大，提升了泛化能力。

B正确。

C错误。间隔应该是2||w||2||w||才对，后半句应该没错，向量的模一般指的就是其二范数。

D正确。考虑软间隔的时候，C对优化问题的影响就在于把a的范围从[0，+inf]限制到了[0,C]。C越小，那么a就会越小，目标函数拉格朗日函数导数为0能够求出w=∑iai∗yi∗xiw=∑iai∗yi∗xi，a变小使得w变小，所以间隔2||w||2||w||变大。

194.在HMM中,若是已知观察序列和产生观察序列的状态序列,那么可用如下哪一种方法直接进行参数估计( D )

A. EM算法
B. 维特比算法
C. 前向后向算法
D. 极大似然估计

正确答案：( D )

@刘炫320

EM算法：只有观测序列，无状态序列时来学习模型参数，即Baum-Welch算法

维特比算法：用动态规划解决HMM的预测问题，不是参数估计

前向后向算法：用来算几率

极大似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，用来估计参数

注意的是在给定观测序列和对应的状态序列估计模型参数，能够利用极大似然发估计。若是给定观测序列，没有对应的状态序列，才用EM，将状态序列看不不可测的隐数据。

195.假定某同窗使用Naive Bayesian（NB）分类模型时，不当心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是：（BD）

A. 这个被重复的特征在模型中的决定做用会被增强
B. 模型效果相比无重复特征的状况下精确度会下降
C. 若是全部特征都被重复一遍，获得的模型预测结果相对于不重复的状况下的模型预测结果同样。
D. 当两列特征高度相关时，没法用两列特征相同时所获得的结论来分析问题
E. NB能够用来作最小二乘回归
F. 以上说法都不正确
　　
正确答案：（BD）

196.L1与L2范数在Logistic Regression 中,若是同时加入L1和L2范数,会产生什么效果( A )。

A. 能够作特征选择,并在必定程度上防止过拟合
B. 能解决维度灾难问题
C. 能加快计算速度
D. 能够得到更准确的结果

正确答案：( A )

@刘炫320

L1范数具备系数解的特性，可是要注意的是，L1没有选到的特征不表明不重要，缘由是两个高相关性的特征可能只保留一个。若是须要肯定哪一个特征重要，再经过交叉验证。

在代价函数后面加上正则项，L1便是Losso回归，L2是岭回归。L1范数是指向量中各个元素绝对值之和，用于特征选择。L2范数是指向量各元素的平方和而后求平方根，用于防止过拟合，提高模型的泛化能力。所以选择A。

对于机器学习中的范数规则化，也就是L0,L1,L2范数的详细解答，请参阅范数规则化。

197.机器学习中L1正则化和L2正则化的区别是？（AD）

A. 使用L1能够获得稀疏的权值
B. 使用L1能够获得平滑的权值
C. 使用L2能够获得稀疏的权值
D. 使用L2能够获得平滑的权值

正确答案：（AD）

@刘炫320

L1正则化偏向于稀疏，它会自动进行特征选择，去掉一些没用的特征，也就是将这些特征对应的权重置为0。
L2主要功能是为了防止过拟合，当要求参数越小时，说明模型越简单，而模型越简单则，越趋向于平滑，从而防止过拟合。

L1正则化/Lasso
L1正则化将系数w的L1范数做为惩罚项加到损失函数上，因为正则项非零，这就迫使那些弱的特征所对应的系数变成0。所以L1正则化每每会使学到的模型很稀疏（系数w常常为0），这个特性使得L1正则化成为一种很好的特征选择方法。

L2正则化/Ridge regression
L2正则化将系数向量的L2范数添加到了损失函数中。因为L2惩罚项中系数是二次方的，这使得L2和L1有着诸多差别，最明显的一点就是，L2正则化会让系数的取值变得平均。对于关联特征，这意味着他们可以得到更相近的对应系数。仍是以Y=X1+X2Y=X1+X2为例，假设X1X1和X1X1具备很强的关联，若是用L1正则化，不论学到的模型是Y=X1+X2Y=X1+X2仍是Y=2X1Y=2X1，惩罚都是同样的，都是2α2α。可是对于L2来讲，第一个模型的惩罚项是2α2α，但第二个模型的是4α4α。能够看出，系数之和为常数时，各系数相等时惩罚是最小的，因此才有了L2会让各个系数趋于相同的特色。

能够看出，L2正则化对于特征选择来讲一种稳定的模型，不像L1正则化那样，系数会由于细微的数据变化而波动。因此L2正则化和L1正则化提供的价值是不一样的，L2正则化对于特征理解来讲更加有用：表示能力强的特征对应的系数是非零。

所以，一句话总结就是：L1会趋向于产生少许的特征，而其余的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候很是有用，而Ridge就只是一种规则化而已。

198.位势函数法的积累势函数K(x)的做用至关于Bayes判决中的( AD )

A. 后验几率
B. 先验几率
C. 类几率密度
D. 类几率密度与先验几率的乘积

正确答案: （AD）

@刘炫320

事实上，AD说的是一回事。

参考连接：势函数主要用于肯定分类面，其思想来源于物理。

199.隐马尔可夫模型三个基本问题以及相应的算法说法正确的是（ ABC）

A. 评估—前向后向算法
B. 解码—维特比算法
C. 学习—Baum-Welch算法
D. 学习—前向后向算法

正确答案: （ ABC）

解析：评估问题，能够使用前向算法、后向算法、前向后向算法。

200.特征比数据量还大时，选择什么样的分类器？

答案：线性分类器，由于维度高的时候，数据通常在维度空间里面会比较稀疏，颇有可能线性可分。

201.下列属于无监督学习的是：（A）

A. k-means
B. SVM
C. 最大熵
D. CRF

正确答案：（A）

解析： A是聚类，BC是分类，D是序列化标注，也是有监督学习。

202.下列哪一个不属于CRF模型对于HMM和MEMM模型的优点（B）
　
A. 特征灵活
B. 速度快
C. 可容纳较多上下文信息
D. 全局最优

正确答案：（B）

解析： CRF 的优势：特征灵活，能够容纳较多的上下文信息，可以作到全局最优CRF 的缺点：速度慢

CRF没有HMM那样严格的独立性假设条件，于是能够容纳任意的上下文信息。特征设计灵活（与ME同样） ————与HMM比较
同时，因为CRF计算全局最优输出节点的条件几率，它还克服了最大熵马尔可夫模型标记偏置（Label-bias）的缺点。 ————与MEMM比较
CRF是在给定须要标记的观察序列的条件下，使用维特比算法，计算整个标记序列的联合几率分布，而不是在给定当前状态条件下，定义下一个状态的状态分布。————与ME比较

203.数据清理中，处理缺失值的方法是? （ABCD）

A. 估算
B. 整例删除
C. 变量删除
D. 成对删除

正确答案：（ABCD）
@刘炫320

　　因为调查、编码和录入偏差，数据中可能存在一些无效值和缺失值，须要给予适当的处理。经常使用的处理方法有：估算，整例删除，变量删除和成对删除。
　　估算(estimation)。最简单的办法就是用某个变量的样本均值、中位数或众数代替无效值和缺失值。这种办法简单，但没有充分考虑数据中已有的信息，偏差可能较大。另外一种办法就是根据调查对象对其余问题的答案，经过变量之间的相关分析或逻辑推论进行估计。例如，某一产品的拥有状况可能与家庭收入有关，能够根据调查对象的家庭收入推算拥有这一产品的可能性。
　　整例删除(casewise deletion)是剔除含有缺失值的样本。因为不少问卷均可能存在缺失值，这种作法的结果可能致使有效样本量大大减小，没法充分利用已经收集到的数据。所以，只适合关键变量缺失，或者含有无效值或缺失值的样本比重很小的状况。
变量删除(variable deletion)。若是某一变量的无效值和缺失值不少，并且该变量对于所研究的问题不是特别重要，则能够考虑将该变量删除。这种作法减小了供分析用的变量数目，但没有改变样本量。
　　成对删除(pairwise deletion)是用一个特殊码(一般是九、9九、999等)表明无效值和缺失值，同时保留数据集中的所有变量和样本。可是，在具体计算时只采用有完整答案的样本，于是不一样的分析因涉及的变量不一样，其有效样本量也会有所不一样。这是一种保守的处理方法，最大限度地保留了数据集中的可用信息。
　　采用不一样的处理方法可能对分析结果产生影响，尤为是当缺失值的出现并不是随机且变量之间明显相关时。所以，在调查中应当尽可能避免出现无效值和缺失值，保证数据的完整性。

204.关于线性回归的描述,如下正确的有: （ACEF）

A. 基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B. 基本假设包括随机干扰下是均值为0的同方差正态分布
C. 在违背基本假设时,普通最小二乘法估计量再也不是最佳线性无偏估计量
D. 在违背基本假设时,模型再也不能够估计
E. 能够用DW检验残差是否存在序列相关性
F. 多重共线性会使得参数估计值方差减少

正确答案：（ACEF）

@刘炫320

一、AB一元线性回归的基本假设有：
　　（1）随机偏差项是一个指望值或平均值为0的随机变量；
　　（2）对于解释变量的全部观测值，随机偏差项有相同的方差；
　　（3）随机偏差项彼此不相关；
　　（4）解释变量是肯定性变量，不是随机变量，与随机偏差项彼此之间相互独立；
　　（5）解释变量之间不存在精确的（彻底的）线性关系，即解释变量的样本观测值矩阵是满秩矩阵；
　　（6）随机偏差项服从正态分布
二、CD 违背基本假设的计量经济学模型仍是能够估计的，只是不能使用普通最小二乘法进行估计。
当存在异方差时，普通最小二乘法估计存在如下问题：参数估计值虽然是无偏的，但不是最小方差线性无偏估计。
三、E杜宾-瓦特森（DW）检验，计量经济，统计分析中经常使用的一种检验序列一阶自相关最经常使用的方法。
四、F所谓多重共线性（Multicollinearity）是指线性回归模型中的解释变量之间因为存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
　　（1）彻底共线性下参数估计量不存在
　　（2）近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大，1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
　　（3）参数估计量经济含义不合理
　　（4）变量的显著性检验失去意义，可能将重要的解释变量排除在模型以外
　　（5）模型的预测功能失效。变大的方差容易使区间预测的“区间”变大，使预测失去意义。
　　对于线性回归模型,当响应变量服从正态分布,偏差项知足高斯–马尔科夫条件（零均值、等方差、不相关）时,回归参数的最小二乘估计是一致最小方差无偏估计。
　　固然，该条件只是理想化的假定，为的是数学上有相应的较为成熟的结论。其实大多数实际问题都不彻底知足这些理想化的假定。
　　线性回归模型理论的发展正是在不断克服理想化条件不被知足时获得许多新方法。如加权LSE、岭估计、压缩估计、BOX_COX变换等一系列段。作实际工做时必定是要超越书本上的理想化条件的。

205.影响聚类算法效果的主要缘由有：（ABC）
　
A. 特征选取
B. 模式类似性测度
C. 分类准则
D. 已知类别的样本质量

正确答案：（ABC）

@刘炫320

解析：这道题应该是很简单的，D之因此不正确，是由于聚类是对无类别的数据进行聚类，不使用已经标记好的数据。

206.如下哪一个是常见的时间序列算法模型（C）

A. RSI
B. MACD
C. ARMA
D. KDJ

正确答案：（C）

解析：自回归滑动平均模型(ARMA) ，其建模思想可归纳为：逐渐增长模型的阶数，拟合较高阶模型，直到再增长模型的阶数而剩余残差方差再也不显著减少为止。

其余三项都不是一个层次的。
A. 相对强弱指数 (RSI, Relative Strength Index) 是经过比较一段时期内的平均收盘涨数和平均收盘跌数来分析市场买沽盘的意向和实力 , 从而做出将来市场的走势。
B. 移动平均聚散指标 (MACD, Moving Average Convergence Divergence), 是根据均线的构造原理 , 对股票价格的收盘价进行平滑处理 , 求出算术平均值之后再进行计算 , 是一种趋向类指标。
D. 随机指标 (KDJ) 通常是根据统计学的原理 , 经过一个特定的周期 ( 常为 9 日 ,9 周等 ) 内出现过的最高价 , 最低价及最后一个计算周期的收盘价及这三者之间的比例关系 , 来计算最后一个计算周期的未成熟随机值 RSV, 而后根据平滑移动平均线的方法来计算 K 值 , D 值与 J 值 , 并绘成曲线图来研判股票走势。

207.下列不是SVM核函数的是：（B）

A. 多项式核函数
B. Logistic核函数
C. 径向基核函数
D. Sigmoid核函数

正确答案：（B）

@刘炫320

SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。

核函数的定义并不困难，根据泛函的有关理论，只要一种函数 K ( x i , x j ) 知足Mercer条件，它就对应某一变换空间的内积。对于判断哪些函数是核函数到目前为止也取得了重要的突破，获得Mercer定理和如下经常使用的核函数类型：
　　(1)线性核函数：K ( x , x i ) = x ⋅ x i
　　(2)多项式核：K ( x , x i ) = ( ( x ⋅ x i ) + 1 ) d
　　(3)径向基核（RBF）：K ( x , x i ) = exp ( − ∥ x − x i ∥ 2 σ 2 )
　　Gauss径向基函数则是局部性强的核函数，其外推能力随着参数 σ 的增大而减弱。多项式形式的核函数具备良好的全局性质。局部性较差。
　　(4)傅里叶核：K ( x , x i ) = 1 − q 2 2 ( 1 − 2 q cos ( x − x i ) + q 2 )
　　(5)样条核：K ( x , x i ) = B 2 n + 1 ( x − x i )
　　(6)Sigmoid核函数：K ( x , x i ) = tanh ( κ ( x , x i ) − δ )

采用Sigmoid函数做为核函数时，支持向量机实现的就是一种多层感知器神经网络，应用SVM方法，隐含层节点数目(它肯定神经网络的结构)、隐含层节点对输入节点的权值都是在设计(训练)的过程当中自动肯定的。并且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部最小值，也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。

在选取核函数解决实际问题时，一般采用的方法有：
　　一是利用专家的先验知识预先选定核函数；
　　二是采用Cross-Validation方法，即在进行核函数选取时，分别试用不一样的核函数，概括偏差最小的核函数就是最好的核函数．如针对傅立叶核、RBF核，结合信号处理问题中的函数回归问题，经过仿真实验，对比分析了在相同数据条件下，采用傅立叶核的SVM要比采用RBF核的SVM偏差小不少。
　　三是采用由Smits等人提出的混合核函数方法，该方法较以前二者是目前选取核函数的主流方法，也是关于如何构造核函数的又一开创性的工做．将不一样的核函数结合起来后会有更好的特性，这是混合核函数方法的基本思想。

208.已知一组数据的协方差矩阵P,下面关于主份量说法错误的是( C )

A. 主份量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量份量的条件下,以均方偏差计算截尾偏差最小
B. 在经主份量分解后,协方差矩阵成为对角矩阵
C. 主份量分析就是K-L变换
D. 主份量是经过求协方差矩阵的特征值获得

正确答案：( C )

解析：K-L变换与PCA变换是不一样的概念，PCA的变换矩阵是协方差矩阵，K-L变换的变换矩阵能够有不少种（二阶矩阵、协方差矩阵、总类内离散度矩阵等等）。当K-L变换矩阵为协方差矩阵时，等同于PCA。

209.在分类问题中,咱们常常会遇到正负样本数据量不等的状况,好比正样本为10w条数据,负样本只有1w条数据,如下最合适的处理方法是( ACD)
　　
A. 将负样本重复10次,生成10w样本量,打乱顺序参与分类
B. 直接进行分类,能够最大限度利用数据
C. 从10w正样本中随机抽取1w参与分类
D. 将负样本每一个权重设置为10,正样本权重为1,参与训练过程

正确答案：( ACD)
解析：
1.重采样。 A可视做重采样的变形。改变数据分布消除不平衡，可能致使过拟合。
　　2.欠采样。 C的方案提升少数类的分类性能，可能丢失多数类的重要信息。
　　若是1：10算是均匀的话，能够将多数类分割成为1000份。而后将每一份跟少数类的样本组合进行训练获得分类器。然后将这1000个分类器用assemble的方法组合位一个分类器。A选项能够看做此方式，于是相对比较合理。
另：若是目标是预测的分布跟训练的分布一致，那就加大对分布不一致的惩罚系数。
　　3. 权值调整。 D方案也是其中一种方式。
固然，这只是在数据集上进行相应的处理，在算法上也有相应的处理方法。

210.在统计模式识分类问题中，当先验几率未知时，能够使用( BC )?

A. 最小损失准则
B. N-P判决
C. 最小最大损失准则
D. 最小误判几率准则

正确答案：( BC )

@刘炫320

选项 A ,最小损失准则中须要用到先验几率

选项B ,在贝叶斯决策中，对于先验几率p(y)，分为已知和未知两种状况。
　　1. p(y)已知，直接使用贝叶斯公式求后验几率便可；
　　2. p(y)未知，能够使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
　　聂曼-皮尔逊决策（N-P判决）能够归结为找阈值a，即：
　　若是p（x|w1）/p（x|w2）>a，则 x属于w1；
　　若是p（x|w1）/p（x|w2）<a，则 x属于w2；

选项C ,最大最小损失规则主要就是使用解决最小损失规则时先验几率未知或难以计算的问题的。

211.解决隐马模型中预测问题的算法是?（D）
　　
A. 前向算法
B. 后向算法
C. Baum-Welch算法
D. 维特比算法

正确答案：（D）

@刘炫320

A、B：前向、后向算法解决的是一个评估问题，即给定一个模型，求某特定观测序列的几率，用于评估该序列最匹配的模型。
C：Baum-Welch算法解决的是一个模型训练问题，即参数估计，是一种无监督的训练方法，主要经过EM迭代实现；
D：维特比算法解决的是给定一个模型和某个特定的输出序列，求最可能产生这个输出的状态序列。如经过海藻变化（输出序列）来观测天气（状态序列），是预测问题，通讯中的解码问题。

212.通常，k-NN最近邻方法在( B )的状况下效果较好。

A. 样本较多但典型性很差
B. 样本较少但典型性好
C. 样本呈团状分布
D. 样本呈链状分布

正确答案：( B )

解析：
K近邻算法主要依靠的是周围的点，所以若是样本过多，那确定是区分不出来的。所以应当选择B。

样本呈团状很有迷惑性，这里应该指的是整个样本都是呈团状分布，这样kNN就发挥不出其求近邻的优点了，总体样本应该具备典型性好，样本较少，比较适宜。

213.下列方法中，能够用于特征降维的方法包括（ABCD）

A. 主成分分析PCA
B. 线性判别分析LDA
C. 深度学习SparseAutoEncoder
D. 矩阵奇异值分解SVD
E. 最小二乘法LeastSquares

正确答案：（ABCD）

解析：降维的3种常见方法ABD，都是线性的。深度学习是降维的方法这个就比较新鲜了，事实上，细细想来，也是降维的一种方法，由于若是隐藏层中的神经元数目要小于输入层，那就达到了降维，但若是隐藏层中的神经元若是多余输入层，那就不是降维了。

最小二乘法是线性回归的一种解决方法，其实也是投影，可是并无进行降维。

214.下面哪些是基于核的机器学习算法?( BCD )

A. Expectation Maximization（EM）（最大指望算法）
B. Radial Basis Function（RBF）（径向基核函数）
C. Linear Discrimimate Analysis（LDA）（主成分分析法）
D. Support Vector Machine（SVM）（支持向量机）

正确答案：( BCD )

解析：径向基核函数是很是经常使用的核函数，而主成分分析法的常规方法是线性的，可是当遇到非线性的时候，一样能够使用核方法使得非线性问题转化为线性问题。支持向量机处理非线性的问题的时候，核函数也是很是重要的。

215.试推导样本空间中任意点x到超平面（w,b）的距离公式。

216.从网上下载或本身编程实现一个卷积神经网络，并在手写字符识别数据MNIST上进行试验测试。

解析详见：周志华《机器学习》课后习题解答系列（六）：Ch5.10 - 卷积神经网络实验

217.神经网络中激活函数的真正意义？一个激活函数须要具备哪些必要的属性？还有哪些属是好的属性但没必要要的？

@Hengkai Guo

说说我对一个好的激活函数的理解吧，有些地方可能不太严谨，欢迎讨论。（部分参考了Activation function。）
　　1. 非线性：即导数不是常数。这个条件前面不少答主都提到了，是多层神经网络的基础，保证多层网络不退化成单层线性网络。这也是激活函数的意义所在。
　　2. 几乎到处可微：可微性保证了在优化中梯度的可计算性。传统的激活函数如sigmoid等知足到处可微。对于分段线性函数好比ReLU，只知足几乎到处可微（即仅在有限个点处不可微）。对于SGD算法来讲，因为几乎不可能收敛到梯度接近零的位置，有限的不可微点对于优化结果不会有很大影响[1]。
　　3. 计算简单：正如题主所说，非线性函数有不少。极端的说，一个多层神经网络也能够做为一个非线性函数，相似于Network In Network[2]中把它当作卷积操做的作法。但激活函数在神经网络前向的计算次数与神经元的个数成正比，所以简单的非线性函数天然更适合用做激活函数。这也是ReLU之流比其它使用Exp等操做的激活函数更受欢迎的其中一个缘由。
　　4. 非饱和性（saturation）：饱和指的是在某些区间梯度接近于零（即梯度消失），使得参数没法继续更新的问题。最经典的例子是Sigmoid，它的导数在x为比较大的正值和比较小的负值时都会接近于0。更极端的例子是阶跃函数，因为它在几乎全部位置的梯度都为0，所以到处饱和，没法做为激活函数。ReLU在x>0时导数恒为1，所以对于再大的正值也不会饱和。但同时对于x<0，其梯度恒为0，这时候它也会出现饱和的现象（在这种状况下一般称为dying ReLU）。Leaky ReLU[3]和PReLU[4]的提出正是为了解决这一问题。
　　5. 单调性（monotonic）：即导数符号不变。这个性质大部分激活函数都有，除了诸如sin、cos等。我的理解，单调性使得在激活函数处的梯度方向不会常常改变，从而让训练更容易收敛。
　　6. 输出范围有限：有限的输出范围使得网络对于一些比较大的输入也会比较稳定，这也是为何早期的激活函数都以此类函数为主，如Sigmoid、TanH。但这致使了前面提到的梯度消失问题，并且强行让每一层的输出限制到固定范围会限制其表达能力。所以如今这类函数仅用于某些须要特定输出范围的场合，好比几率输出（此时loss函数中的log操做可以抵消其梯度消失的影响[1]）、LSTM里的gate函数。
　　7. 接近恒等变换（identity）：即约等于x。这样的好处是使得输出的幅值不会随着深度的增长而发生显著的增长，从而使网络更为稳定，同时梯度也可以更容易地回传。这个与非线性是有点矛盾的，所以激活函数基本只是部分知足这个条件，好比TanH只在原点附近有线性区（在原点为0且在原点的导数为1），而ReLU只在x>0时为线性。这个性质也让初始化参数范围的推导更为简单[5][4]。额外提一句，这种恒等变换的性质也被其余一些网络结构设计所借鉴，好比CNN中的ResNet[6]和RNN中的LSTM。
　　8. 参数少：大部分激活函数都是没有参数的。像PReLU带单个参数会略微增长网络的大小。还有一个例外是Maxout[7]，尽管自己没有参数，但在一样输出通道数下k路Maxout须要的输入通道数是其它函数的k倍，这意味着神经元数目也须要变为k倍；但若是不考虑维持输出通道数的状况下，该激活函数又能将参数个数减小为原来的k倍。
　　9. 归一化（normalization）：这个是最近才出来的概念，对应的激活函数是SELU[8]，主要思想是使样本分布自动归一化到零均值、单位方差的分布，从而稳定训练。在这以前，这种归一化的思想也被用于网络结构的设计，好比Batch Normalization[9]。

218.梯度降低法的神经网络容易收敛到局部最优，为何应用普遍？

@李振华

知乎答案

219.EM算法、HMM、CRF。

　　这三个放在一块儿不是很恰当，可是有互相有关联，因此就放在这里一块儿说了。注意重点关注算法的思想。
（1）EM算法
　　EM算法是用于含有隐变量模型的极大似然估计或者极大后验估计，有两步组成：E步，求指望（expectation）；M步，求极大（maxmization）。本质上EM算法仍是一个迭代算法，经过不断用上一代参数对隐变量的估计来对当前变量进行计算，直到收敛。
　　注意：EM算法是对初值敏感的，并且EM是不断求解下界的极大化逼近求解对数似然函数的极大化的算法，也就是说EM算法不能保证找到全局最优值。对于EM的导出方法也应该掌握。
（2）HMM算法
　　隐马尔可夫模型是用于标注问题的生成模型。有几个参数（π，A，B）：初始状态几率向量π，状态转移矩阵A，观测几率矩阵B。称为马尔科夫模型的三要素。
马尔科夫三个基本问题：
几率计算问题：给定模型和观测序列，计算模型下观测序列输出的几率。–》前向后向算法
学习问题：已知观测序列，估计模型参数，即用极大似然估计来估计参数。–》Baum-Welch(也就是EM算法)和极大似然估计。
预测问题：已知模型和观测序列，求解对应的状态序列。–》近似算法（贪心算法）和维比特算法（动态规划求最优路径）
（3）条件随机场CRF
　　给定一组输入随机变量的条件下另外一组输出随机变量的条件几率分布密度。条件随机场假设输出变量构成马尔科夫随机场，而咱们平时看到的大可能是线性链条随机场，也就是由输入对输出进行预测的判别模型。求解方法为极大似然估计或正则化的极大似然估计。
　　之因此总把HMM和CRF进行比较，主要是由于CRF和HMM都利用了图的知识，可是CRF利用的是马尔科夫随机场（无向图），而HMM的基础是贝叶斯网络（有向图）。并且CRF也有：几率计算问题、学习问题和预测问题。大体计算方法和HMM相似，只不过不须要EM算法进行学习问题。
（4）HMM和CRF对比
　　其根本仍是在于基本的理念不一样，一个是生成模型，一个是判别模型，这也就致使了求解方式的不一样。

220.CNN经常使用的几个模型。

221.带核的SVM为何能分类非线性问题？

核函数的本质是两个函数的內积，而这个函数在SVM中能够表示成对于输入值的高维映射。注意核并非直接对应映射，核只不过是一个内积。

222.经常使用核函数及核函数的条件。

核函数选择的时候应该从线性核开始，并且在特征不少的状况下没有必要选择高斯核，应该从简单到难的选择模型。咱们一般说的核函数指的是正定和函数，其充要条件是对于任意的x属于X，要求K对应的Gram矩阵要是半正定矩阵。
RBF核径向基，这类函数取值依赖于特定点间的距离，因此拉普拉斯核其实也是径向基核。
线性核：主要用于线性可分的状况
多项式核

223.Boosting和Bagging。

（1）随机森林
　　随机森林改变了决策树容易过拟合的问题，这主要是由两个操做所优化的：
　　1）Boostrap从袋内有放回的抽取样本值
　　2）每次随机抽取必定数量的特征（一般为sqr(n)）。
　　分类问题：采用Bagging投票的方式选择类别频次最高的
　　回归问题：直接取每颗树结果的平均值。

（2）Boosting之AdaBoost
　　Boosting的本质其实是一个加法模型，经过改变训练样本权重学习多个分类器并进行一些线性组合。而Adaboost就是加法模型+指数损失函数+前项分布算法。Adaboost就是从弱分类器出发反复训练，在其中不断调整数据权重或者是几率分布，同时提升前一轮被弱分类器误分的样本的权值。最后用分类器进行投票表决（可是分类器的重要性不一样）。
（3）Boosting之GBDT
　　将基分类器变成二叉树，回归用二叉回归树，分类用二叉分类树。和上面的Adaboost相比，回归树的损失函数为平方损失，一样能够用指数损失函数定义分类问题。可是对于通常损失函数怎么计算呢？GBDT（梯度提高决策树）是为了解决通常损失函数的优化问题，方法是用损失函数的负梯度在当前模型的值来模拟回归问题中残差的近似值。
　　注：因为GBDT很容易出现过拟合的问题，因此推荐的GBDT深度不要超过6，而随机森林能够在15以上。
（4）Xgboost
这个工具主要有如下几个特色：
支持线性分类器
能够自定义损失函数，而且能够用二阶偏导
加入了正则化项：叶节点数、每一个叶节点输出score的L2-norm
支持特征抽样
在必定状况下支持并行，只有在建树的阶段才会用到，每一个节点能够并行的寻找分裂特征。

224.逻辑回归相关问题。

（1）公式推导必定要会
（2）逻辑回归的基本概念
　　这个最好从广义线性模型的角度分析，逻辑回归是假设y服从Bernoulli分布。
（3）L1-norm和L2-norm
　　其实稀疏的根本仍是在于L0-norm也就是直接统计参数不为0的个数做为规则项，但实际上却很差执行因而引入了L1-norm；而L1norm本质上是假设参数先验是服从Laplace分布的，而L2-norm是假设参数先验为Gaussian分布，咱们在网上看到的一般用图像来解答这个问题的原理就在这。
　　可是L1-norm的求解比较困难，能够用坐标轴降低法或是最小角回归法求解。
（4）LR和SVM对比
　　首先，LR和SVM最大的区别在于损失函数的选择，LR的损失函数为Log损失（或者说是逻辑损失均可以）、而SVM的损失函数为hinge loss
minw,b∑iN[1−yi(w∗xi+b)]+λ||w||2
minw,b∑iN[1−yi(w∗xi+b)]+λ||w||2

其次，二者都是线性模型。
　　最后，SVM只考虑支持向量（也就是和分类相关的少数点）
（5）LR和随机森林区别
　　随机森林等树算法都是非线性的，而LR是线性的。LR更侧重全局优化，而树模型主要是局部的优化。
（6）经常使用的优化方法
　　逻辑回归自己是能够用公式求解的，可是由于须要求逆的复杂度过高，因此才引入了梯度降低算法。
　　一阶方法：梯度降低、随机梯度降低、mini 随机梯度降低降法。随机梯度降低不但速度上比原始梯度降低要快，局部最优化问题时能够必定程度上抑制局部最优解的发生。
　　二阶方法：牛顿法、拟牛顿法：
　　这里详细说一下牛顿法的基本原理和牛顿法的应用方式。牛顿法其实就是经过切线与x轴的交点不断更新切线的位置，直到达到曲线与x轴的交点获得方程解。在实际应用中咱们由于经常要求解凸优化问题，也就是要求解函数一阶导数为0的位置，而牛顿法刚好能够给这种问题提供解决方法。实际应用中牛顿法首先选择一个点做为起始点，并进行一次二阶泰勒展开获得导数为0的点进行一个更新，直到达到要求，这时牛顿法也就成了二阶求解问题，比一阶方法更快。咱们经常看到的x一般为一个多维向量，这也就引出了Hessian矩阵的概念（就是x的二阶导数矩阵）。缺点：牛顿法是定长迭代，没有步长因子，因此不能保证函数值稳定的降低，严重时甚至会失败。还有就是牛顿法要求函数必定是二阶可导的。并且计算Hessian矩阵的逆复杂度很大。
拟牛顿法：不用二阶偏导而是构造出Hessian矩阵的近似正定对称矩阵的方法称为拟牛顿法。拟牛顿法的思路就是用一个特别的表达形式来模拟Hessian矩阵或者是他的逆使得表达式知足拟牛顿条件。主要有DFP法（逼近Hession的逆）、BFGS（直接逼近Hession矩阵）、 L-BFGS（能够减小BFGS所需的存储空间）。
225.用贝叶斯机率说明Dropout的原理。

参考答案

226.为何不少作人脸的Paper会最后加入一个Local Connected Conv？

@许韩

以FaceBook DeepFace 为例：

DeepFace 先进行了两次全卷积＋一次池化，提取了低层次的边缘／纹理等特征。后接了3个Local-Conv层，这里是用Local-Conv的缘由是，人脸在不一样的区域存在不一样的特征（眼睛／鼻子／嘴的分布位置相对固定），当不存在全局的局部特征分布时，Local-Conv更适合特征的提取。

227.什么事共线性, 跟过拟合有什么关联?

@抽象猴

共线性：多变量线性回归中，变量之间因为存在高度相关关系而使回归估计不许确。
共线性会形成冗余，致使过拟合。

解决方法：排除变量的相关性／加入权重正则。

228.为何网络够深(Neurons 足够多)的时候，老是能够避开较差Local Optima？

参见：The Loss Surfaces of Multilayer Networks

229.机器学习中的正负样本。

在分类问题中，这个问题相对好理解一点，好比人脸识别中的例子，正样本很好理解，就是人脸的图片，负样本的选取就与问题场景相关，具体而言，若是你要进行教室中学生的人脸识别，那么负样本就是教室的窗子、墙等等，也就是说，不能是与你要研究的问题绝不相关的乱七八糟的场景图片，这样的负样本并无意义。负样本能够根据背景生成，有时候不须要寻找额外的负样本。通常3000-10000的正样本须要5，000,000-100,000,000的负样原本学习，在互金领域通常在入模前将正负比例经过采样的方法调整到3:1-5:1。

230.机器学习中，有哪些特征选择的工程方法？

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

231.在一个n维的空间中，最好的检测outlier(离群点)的方法是：（C）

A. 做正态分布几率图
B. 做盒形图
C. 马氏距离
D. 做散点图

答案：（C）

马氏距离是基于卡方分布的，度量多元outlier离群点的统计方法。更多请详见：从K近邻算法、距离度量谈到KD树、SIFT+BBF算法。

232.对数概率回归（logistics regression）和通常回归分析有什么区别？（D）

A. 对数概率回归是设计用来预测事件可能性的
B. 对数概率回归能够用来度量模型拟合程度
C. 对数概率回归能够用来估计回归系数
D. 以上全部

答案：（D）
A: 对数概率回归实际上是设计用来解决分类问题的
B: 对数概率回归能够用来检验模型对数据的拟合度
C: 虽然对数概率回归是用来解决分类问题的，可是模型创建好后，就能够根据独立的特征，估计相关的回归系数。就我认为，这只是估计回归系数，不能直接用来作回归模型。

233.bootstrap数据是什么意思？（提示：考“bootstrap”和“boosting”区别）（C）

A. 有放回地从总共M个特征中抽样m个特征
B. 无放回地从总共M个特征中抽样m个特征
C. 有放回地从总共N个样本中抽样n个样本
D. 无放回地从总共N个样本中抽样n个样本

答案：（C）

234.“过拟合”只在监督学习中出现，在非监督学习中，没有”过拟合”，这是：（B）

A. 对的
B. 错的
答案：（B）

咱们能够评估无监督学习方法经过无监督学习的指标，如：咱们能够评估聚类模型经过调整兰德系数（adjusted rand score）。

235.对于k折交叉验证, 如下对k的说法正确的是 :（D）

A. k越大, 不必定越好, 选择大的k会加大评估时间
B. 选择更大的k, 就会有更小的bias (由于训练集更加接近总数据集)
C. 在选择k时, 要最小化数据集之间的方差
D. 以上全部

答案：（D）

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差异不大的原则. 好比, 对于二类分类问题, 使用2-折交叉验证, 若是测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会不好。

236.回归模型中存在多重共线性, 你如何解决这个问题？

1.去除这两个共线性变量
2.咱们能够先去除一个共线性变量
3.计算VIF(方差膨胀因子), 采起相应措施
4.为了不损失信息, 咱们能够使用一些正则化方法, 好比, 岭回归和lasso回归.
如下哪些是对的：（D）

A. 1
B. 2
C. 2和3
D. 2, 3和4

答案: （D）

解决多重公线性, 能够使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也能够VIF, 若是VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高.
咱们也能够用岭回归和lasso回归的带有惩罚正则项的方法. 咱们也能够在一些变量上加随机噪声, 使得变量之间变得不一样, 可是这个方法要当心使用, 可能会影响预测效果。

237.模型的高bias是什么意思, 咱们如何下降它 ?（B）

A. 在特征空间中减小特征
B. 在特征空间中增长特征
C. 增长数据点
D. B和C
E. 以上全部

答案: （B）

bias过高说明模型太简单了, 数据维数不够, 没法准确预测数据, 因此, 升维吧 !

238.训练决策树模型, 属性节点的分裂, 具备最大信息增益的图是下图的哪个:（A）

A. Outlook
B. Humidity
C. Windy
D. Temperature

答案: （A）

信息增益, 增长平均子集纯度。

239.对于信息增益, 决策树分裂节点, 下面说法正确的是: （C）

1.纯度高的节点须要更多的信息去区分
2.信息增益能够用”1比特-熵”得到
3.若是选择一个属性具备许多归类值, 那么这个信息增益是有误差的

A. 1
B. 2
C. 2和3
D. 全部以上

答案: （C）

240.若是SVM模型欠拟合, 如下方法哪些能够改进模型 : （A）

A. 增大惩罚参数C的值
B. 减少惩罚参数C的值
C. 减少核系数(gamma参数)

答案：（A）

若是SVM模型欠拟合, 咱们能够调高参数C的值, 使得模型复杂度上升。

241.下图是同一个SVM模型, 可是使用了不一样的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是 :（C）

A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2 < g3
D. g1 >= g2 >= g3
E. g1 <= g2 <= g3

答案: （C）

242.假设咱们要解决一个二类分类问题, 咱们已经创建好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5几率估计, 就判别为1, 不然就判别为0 ; 若是咱们如今用另外一个大于0.5的阈值, 那么如今关于模型说法, 正确的是 : （C）

1.模型分类的召回率会下降或不变
2.模型分类的召回率会升高
3.模型分类准确率会升高或不变
4.模型分类准确率会下降

A. 1
B. 2
C.1和3
D. 2和4
E. 以上都不是

答案: （C）

243.”点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 因此这是一个很是不平衡的数据集. 假设, 如今咱们已经建了一个模型来分类, 并且有了99%的预测准确率, 咱们能够下的结论是 : （B）

A. 模型预测准确率已经很高了, 咱们不须要作什么了
B. 模型预测准确率不高, 咱们须要作点什么改进模型
C. 没法下结论
D. 以上都不对

答案: （B）

99%的预测准确率可能说明, 你预测的没有点进去的人很准确 (由于有99%的人是不会点进去的, 这很好预测)。不能说明你的模型对点进去的人预测准确, 因此, 对于这样的非平衡数据集, 咱们要把注意力放在小部分的数据上, 即那些点击进去的人。

244.使用k=1的KNN算法, 下图二类分类问题, “+” 和 “o” 分别表明两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少 :（B）

A. 0%
B. 100%
C. 0% 到 100%
D. 以上都不是

答案: （B）

KNN算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 咱们就把这个样本分红A类. 显然, k=1 的KNN在上图不是一个好选择, 分类的错误率始终是100%。

245.咱们想在大数据集上训练决策树, 为了使用较少时间, 咱们能够 : （C）

A. 增长树的深度
B. 增长学习率 (learning rate)
C. 减小树的深度
D. 减小树的数量

答案: （C）

A.增长树的深度, 会致使全部节点不断分裂, 直到叶子节点是纯的为止. 因此, 增长深度, 会延长训练时间。
B.决策树没有学习率参数能够调。(不像集成学习和其它有步长的学习方法)
D.决策树只有一棵树, 不是随机森林。

246.对于神经网络的说法, 下面正确的是 : （A）
1.增长神经网络层数, 可能会增长测试数据集的分类错误率
2.减小神经网络层数, 老是能减少测试数据集的分类错误率
3.增长神经网络层数, 老是能减少训练数据集的分类错误率

A. 1
B. 1 和 3
C. 1 和 2
D. 2

答案: （A）

深度神经网络的成功, 已经证实, 增长神经网络层数, 能够增长模型范化能力, 即训练数据集和测试数据集都表现得更好. 但更多的层数, 也不必定能保证有更好的表现https://arxiv.org/pdf/1512.03385v1.pdf。因此,不能绝对地说层数多的好坏, 只能选A。

247.假如咱们使用非线性可分的SVM目标函数做为最优化对象, 咱们怎么保证模型线性可分？（C）

A. 设C=1
B. 设C=0
C. 设C=无穷大
D. 以上都不对

答案: （C）

C无穷大保证了全部的线性不可分都是能够忍受的。

248.训练完SVM模型后, 不是支持向量的那些样本咱们能够丢掉, 也能够继续分类:（A）

A. 正确
B. 错误

答案: （A）
SVM模型中, 真正影响决策边界的是支持向量。

249.如下哪些算法, 能够用神经网络去构造: （B）
1.KNN
2.线性回归
3.对数概率回归

A. 1和 2
B. 2 和 3
C. 1, 2 和 3
D. 以上都不是

答案: （B）
1.KNN算法不须要训练参数, 而全部神经网络都须要训练参数, 所以神经网络帮不上忙
2.最简单的神经网络, 感知器, 其实就是线性回归的训练
3.咱们能够用一层的神经网络构造对数概率回归

250.请选择下面能够应用隐马尔科夫(HMM)模型的选项: （D）

A. 基因序列数据集
B. 电影浏览数据集
C. 股票市场数据集
D. 全部以上

答案: （D）
只要是和时间序列问题有关的 , 均可以试试HMM。

251.咱们创建一个5000个特征, 100万数据的机器学习模型. 咱们怎么有效地应对这样的大数据训练 : （F）

A. 咱们随机抽取一些样本, 在这些少许样本之上训练
B. 咱们能够试用在线机器学习算法
C. 咱们应用PCA算法降维, 减小特征数
D. B 和 C
E. A 和 B
F. 以上全部

答案: （F）

252.咱们想要减小数据集中的特征数, 即降维. 选择如下适合的方案 :（D）
1.使用前向特征选择方法
2.使用后向特征排除方法
3.咱们先把全部特征都使用, 去训练一个模型, 获得测试集上的表现. 而后咱们去掉一个特征, 再去训练, 用交叉验证看看测试集上的表现. 若是表现比原来还要好, 咱们能够去除这个特征
4.查看相关性表, 去除相关性最高的一些特征

A. 1 和 2
B. 2, 3和4
C. 1, 2和4
D. All

答案: （D）
1.前向特征选择方法和后向特征排除方法是咱们特征选择的经常使用方法
2.若是前向特征选择方法和后向特征排除方法在大数据上不适用, 能够用这里第三种方法
3.用相关性的度量去删除多余特征, 也是一个好方法

因此D是正确的。

253.对于随机森林和GradientBoosting Trees, 下面说法正确的是:（A）
1.在随机森林的单个树中, 树和树之间是有依赖的, 而GradientBoosting Trees中的单个树之间是没有依赖的
2.这两个模型都使用随机特征子集, 来生成许多单个的树
3.咱们能够并行地生成GradientBoosting Trees单个树, 由于它们之间是没有依赖的, GradientBoosting Trees训练模型的表现老是比随机森林好

A. 2
B. 1 and 2
C. 1, 3 and 4
D. 2 and 4

答案: （A）
1.随机森林是基于bagging的, 而Gradient Boosting trees是基于boosting的, 全部说反了,在随机森林的单个树中, 树和树之间是没有依赖的, 而GradientBoosting Trees中的单个树之间是有依赖关系。
2.这两个模型都使用随机特征子集, 来生成许多单个的树。

因此A是正确的。

254.对于PCA(主成分分析)转化过的特征 , 朴素贝叶斯的”不依赖假设”老是成立, 由于全部主要成分是正交的, 这个说法是 :（B）

A. 正确的
B. 错误的

答案: （B）
这个说法是错误的。首先，“不依赖”和“不相关”是两回事；其次, 转化过的特征, 也多是相关的。

255.对于PCA说法正确的是 :（A）
1.咱们必须在使用PCA前规范化数据
2.咱们应该选择使得模型有最大variance的主成分
3.咱们应该选择使得模型有最小variance的主成分
4.咱们能够使用PCA在低维度上作数据可视化

A. 1, 2 and 4
B. 2 and 4
C. 3 and 4
D. 1 and 3
E. 1, 3 and 4

答案: （A）
1）PCA对数据尺度很敏感, 打个比方, 若是单位是从km变为cm, 这样的数据尺度对PCA最后的结果可能颇有影响(从不怎么重要的成分变为很重要的成分)
2）咱们老是应该选择使得模型有最大variance的主成分
3）有时在低维度上左图是须要PCA的降维帮助的

256.对于下图, 最好的主成分选择是多少 ?（B）

A. 7
B. 30
C. 35
D. 不肯定

答案: （B）
主成分选择使variance越大越好，在这个前提下，主成分越少越好。

257.数据科学家可能会同时使用多个算法（模型）进行预测，而且最后把这些算法的结果集成起来进行最后的预测（集成学习），如下对集成学习说法正确的是 :（B）

A. 单个模型之间有高相关性
B. 单个模型之间有低相关性
C. 在集成学习中使用“平均权重”而不是“投票”会比较好
D. 单个模型都是用的一个算法

答案: （B）

258.在有监督学习中，咱们如何使用聚类方法？（B）
1.咱们能够先建立聚类类别，而后在每一个类别上用监督学习分别进行学习
2.咱们能够使用聚类“类别id”做为一个新的特征项，而后再用监督学习分别进行学习
3.在进行监督学习以前，咱们不能新建聚类类别
4.咱们不能够使用聚类“类别id”做为一个新的特征项，而后再用监督学习分别进行学习

A. 2 和 4
B. 1 和 2
C. 3 和 4
D. 1 和 3

答案: （B）
咱们能够为每一个聚类构建不一样的模型，提升预测准确率；“类别id”做为一个特征项去训练，能够有效地总结了数据特征。因此B是正确的。

259.如下说法正确的是 :（C）
1.一个机器学习模型，若是有较高准确率，老是说明这个分类器是好的
2.若是增长模型复杂度，那么模型的测试错误率老是会下降
3.若是增长模型复杂度，那么模型的训练错误率老是会下降
4.咱们不能够使用聚类“类别id”做为一个新的特征项，而后再用监督学习分别进行学习

A. 1
B. 2
C. 3
D. 1 and 3

答案: （C）
考的是过拟合和欠拟合的问题。

260.对应GradientBoosting tree算法，如下说法正确的是 :（C）
1.当增长最小样本分裂个数，咱们能够抵制过拟合
2.当增长最小样本分裂个数，会致使过拟合
3.当咱们减小训练单个学习器的样本个数，咱们能够下降variance
4.当咱们减小训练单个学习器的样本个数，咱们能够下降bias

A. 2 和 4
B. 2 和 3
C. 1 和 3
D. 1 和 4

答案: （C）
最小样本分裂个数是用来控制“过拟合”参数。过高的值会致使“欠拟合”，这个参数应该用交叉验证来调节。第二点是靠bias和variance概念的。

261.如下哪一个图是KNN算法的训练边界 ? （B）

A) B
B) A
C) D
D) C
E) 都不是

答案：（B）
KNN算法确定不是线性的边界，因此直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以肯定分类，因此边界必定是坑坑洼洼的。

262.若是一个训练好的模型在测试集上有100%的准确率，这是否是意味着在一个新的数据集上，也会有一样好的表现？（B）

A. 是的，这说明这个模型的范化能力已经足以支持新的数据集合了
B. 不对，依而后其余因素模型没有考虑到，好比噪音数据

答案：（B）
没有一个模型是能够老是适应新的数据的。咱们不可能达到100%的准确率。

263.下面的交叉验证方法 :（B）
i. 有放回的Bootstrap方法
ii. 留一个测试样本的交叉验证
iii. 5折交叉验证
iv. 重复两次的5折交叉验证
当样本是1000时，下面执行时间的顺序，正确的是：

A. i > ii > iii > iv
B. ii > iv > iii > i
C. iv > i > ii > iii
D. ii > iii > iv > i

答案：（B）

Bootstrap方法是传统的随机抽样，验证一次的验证方法，只须要训练1个模型，因此时间最少。
留一个测试样本的交叉验证，须要n次训练过程（n是样本个数），这里，须要训练1000个模型。
5折交叉验证须要训练5个模型。
重复两次的5折交叉验证，须要训练10个模型。
264.变量选择是用来选择最好的判别器子集，若是要考虑模型效率，咱们应该作哪些变量选择的考虑？ :（C）
1.多个变量其实有相同的用处
2.变量对于模型的解释有多大做用
3.特征携带的信息
4.交叉验证

A. 1 和 4
B. 1, 2 和 3
C. 1,3 和 4
D. 以上全部

答案：（C）
注意，这题的题眼是考虑模型效率，因此不要考虑选项B

265.对于线性回归模型，包括附加变量在内，如下的可能正确的是 :（D）
1.R-Squared 和 Adjusted R-squared都是递增的
2.R-Squared 是常量的，Adjusted R-squared是递增的
3.R-Squared 是递减的， Adjusted R-squared 也是递减的
4.R-Squared 是递减的， Adjusted R-squared是递增的

A. 1 和 2
B. 1 和 3
C. 2 和 4
D. 以上都不是

答案：（D）
R-Squared不能决定系数估计和预测误差，这就是为何咱们要估计残差图。可是，R-Squared有R-Squared和predicted R-Squared所没有的问题。每次为模型加入预测器，R-Squared递增或者不变。

266.对于下面三个模型的训练状况，下面说法正确的是 :（C）

1.第一张图的训练错误与其他两张图相比，是最大的
2.最后一张图的训练效果最好，由于训练错误最小
3.第二张图比第一和第三张图鲁棒性更强，是三个里面表现最好的模型
4.第三张图相对前两张图过拟合了
5.三个图表现同样，由于咱们尚未测试数据集

A. 1 和 3
B. 1 和 3
C. 1, 3 和 4
D. 5

267.对于线性回归，咱们应该有如下哪些假设？（D）
1.找到利群点很重要, 由于线性回归对利群点很敏感
2.线性回归要求全部变量必须符合正态分布
3.线性回归假设数据没有多重线性相关性

A. 1 和 2
B. 2 和 3
C. 1,2 和 3
D. 以上都不是

答案：（D）

利群点要着重考虑，第一点是对的。
不是必须的，固然若是是正态分布，训练效果会更好。
有少许的多重线性相关性是能够的，可是咱们要尽可能避免。
268.咱们注意变量间的相关性。在相关矩阵中搜索相关系数时, 若是咱们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 咱们能够得出什么结论？（C）
1.Var1和Var2是很是相关的
2.由于Var和Var2是很是相关的, 咱们能够去除其中一个
3.Var3和Var1的1.23相关系数是不可能的

A. 1 and 3
B. 1 and 2
C. 1,2 and 3
D. 1

答案：（C）

Var1和Var2的相关系数是负的，因此这是多重线性相关，咱们能够考虑去除其中一个。
一般的，若是相关系数大于0.7或者小于-0.7，是高相关的。
相关系数的范围应该是[-1,1]。
269.若是在一个高度非线性而且复杂的一些变量中“一个树模型可比通常的回归模型效果更好”是（A）

A. 对的
B. 错的

答案：（A）

270.对于维度极低的特征，选择线性仍是非线性分类器？

答案：非线性分类器，低维空间可能不少特征都跑到一块儿了，致使线性不可分。
1.若是特征的数量很大，跟样本数量差很少，这时候选用LR或者是Linear Kernel的SVM。
2.若是特征的数量比较小，样本数量通常，不算大也不算小，选用SVM+Gaussian Kernel。
3.若是特征的数量比较小，而样本数量不少，须要手工添加一些特征变成第一种状况。

271.SVM、LR、决策树的对比。

模型复杂度：SVM支持核函数，可处理线性非线性问题;LR模型简单，训练速度快，适合处理线性问题;决策树容易过拟合，须要进行剪枝。
损失函数：SVM hinge loss; LR L2正则化; Adaboost 指数损失。
数据敏感度：SVM添加容忍度对outlier不敏感，只关心支持向量，且须要先作归一化; LR对远点敏感。
数据量：数据量大就用LR，数据量小且特征少就用SVM非线性核。

272.什么是ill-condition病态问题？

训练完的模型，测试样本稍做修改就会获得差异很大的结果，就是病态问题，模型对未知数据的预测能力不好，即泛化偏差大。

273.简述KNN最近邻分类算法的过程？

1.计算训练样本和测试样本中每一个样本点的距离（常见的距离度量有欧式距离，马氏距离等）；
2.对上面全部的距离值进行排序；
3.选前k个最小距离的样本；
4.根据这k个样本的标签进行投票，获得最后的分类类别；

274.经常使用的聚类划分方式有哪些？列举表明算法。

1.基于划分的聚类:K-means，k-medoids，CLARANS。
2.基于层次的聚类：AGNES（自底向上），DIANA（自上向下）。
3.基于密度的聚类：DBSACN，OPTICS，BIRCH(CF-Tree)，CURE。
4.基于网格的方法：STING，WaveCluster。
5.基于模型的聚类：EM,SOM，COBWEB。

275.下面对集成学习模型中的弱学习者描述错误的是？（C）

A. 他们常常不会过拟合
B. 他们一般带有高误差，因此其并不能解决复杂学习问题
C. 他们一般会过拟合

答案：（C）
弱学习者是问题的特定部分。因此他们一般不会过拟合，这也就意味着弱学习者一般拥有低方差和高误差。

276.下面哪一个/些选项对 K 折交叉验证的描述是正确的？（D）
1.增大 K 将致使交叉验证结果时须要更多的时间
2.更大的 K 值相比于小 K 值将对交叉验证结构有更高的信心
3.若是 K=N，那么其称为留一交叉验证，其中 N 为验证集中的样本数量

A. 1 和 2
B. 2 和 3
C. 1 和 3
D. 一、2 和 3

答案：（D)
大 K 值意味着对太高估计真实预期偏差（训练的折数将更接近于整个验证集样本数）拥有更小的误差和更多的运行时间（并随着愈来愈接近极限状况：留一交叉验证）。咱们一样在选择 K 值时须要考虑 K 折准确度和方差间的均衡。

277.最出名的降维算法是 PAC 和 t-SNE。将这两个算法分别应用到数据「X」上，并获得数据集「X_projected_PCA」，「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的？（B）

A. X_projected_PCA 在最近邻空间能获得解释
B. X_projected_tSNE 在最近邻空间能获得解释
C. 两个都在最近邻空间能获得解释
D. 两个都不能在最近邻空间获得解释

答案：（B）
t-SNE 算法考虑最近邻点而减小数据维度。因此在使用 t-SNE 以后，所降的维能够在最近邻空间获得解释。但 PCA 不能。

278.给定三个变量 X，Y，Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相关性系数分别为 C一、C2 和 C3。如今 X 的全部值加 2（即 X+2），Y 的所有值减 2（即 Y-2），Z 保持不变。那么运算以后的 (X, Y)、(Y, Z) 和 (X, Z) 相关性系数分别为 D一、D2 和 D3。如今试问 D一、D二、D3 和 C一、C二、C3 之间的关系是什么？（E）

A. D1= C1, D2 < C2, D3 > C3
B. D1 = C1, D2 > C2, D3 > C3
C. D1 = C1, D2 > C2, D3 < C3
D. D1 = C1, D2 < C2, D3 < C3
E. D1 = C1, D2 = C2, D3 = C3

答案：（E）
特征之间的相关性系数不会由于特征加或减去一个数而改变。

279.为了获得和 SVD 同样的投射（projection），你须要在 PCA 中怎样作？(A)

A. 将数据转换成零均值
B. 将数据转换成零中位数
C. 没法作到

答案:（A）
当数据有一个 0 均值向量时，PCA 有与 SVD 同样的投射，不然在使用 SVD 以前，你必须将数据均值归 0。

280.假设咱们有一个数据集，在一个深度为 6 的决策树的帮助下，它能够使用 100% 的精确度被训练。如今考虑一下两点，并基于这两点选择正确的选项。(A)
注意：全部其余超参数是相同的，全部其余因子不受影响。
1.深度为 4 时将有高误差和低方差
2.深度为 4 时将有低误差和低方差

A. 只有 1
B. 只有 2
C. 1 和 2
D. 没有一个

答案:（A)
若是在这样的数据中你拟合深度为 4 的决策树，这意味着其更有可能与数据欠拟合。所以，在欠拟合的状况下，你将得到高误差和低方差。

281.在 k-均值算法中，如下哪一个选项可用于得到全局最小？(D)

A. 尝试为不一样的质心（centroid）初始化运行算法
B. 调整迭代的次数
C. 找到集群的最佳数量
D. 以上全部

答案:（D）
全部均可以用来调试以找到全局最小。

282.你正在使用带有 L1 正则化的 logistic 回归作二分类，其中 C 是正则化参数，w1 和 w2 是 x1 和 x2 的系数。当你把 C 值从 0 增长至很是大的值时，下面哪一个选项是正确的？(B)

A. 第一个 w2 成了 0，接着 w1 也成了 0
B. 第一个 w1 成了 0，接着 w2 也成了 0
C. w1 和 w2 同时成了 0
D. 即便在 C 成为大值以后，w1 和 w2 都不能成 0

答案:（B）
经过观察图像咱们发现，即便只使用 x2，咱们也能高效执行分类。所以一开始 w1 将成 0；当正则化参数不断增长时，w2 也会愈来愈接近 0。

283.假设你使用 log-loss 函数做为评估标准。下面这些选项，哪些是对做为评估标准的 log-loss 的正确解释。(D)

A.若是一个分类器对不正确的分类很自信，log-loss 会严重的批评它。
B.对一个特别的观察而言，分类器为正确的类别分配很是小的几率，而后对 log-loss 的相应分布会很是大。
C.log-loss 越低，模型越好
D.以上都是

答案为:（D）

284.下面哪一个选项中哪一项属于肯定性算法？(A）

A.PCA
B.K-Means
C. 以上都不是

答案：（A）
肯定性算法代表在不一样运行中，算法输出并不会改变。若是咱们再一次运行算法，PCA 会得出相同的结果，而 K-Means 不会。

285.特征向量的归一化方法有哪些？

线性函数转换，表达式以下：
y=x−MinValueMaxValue−MinValuey=x−MinValueMaxValue−MinValue
对数函数转换，表达式以下：
y=log10(x)y=log10(x)
反余切函数转换，表达式以下：
y=arctan(x)∗2πy=arctan(x)∗2π
减去均值，除以方差：
y=x−meansvariancey=x−meansvariance
286.优化算法及其优缺点？

舒适提示：在回答面试官的问题的时候，每每将问题往大的方面去回答，这样不会陷于小的技术上死磕，最后很容易把本身嗑死了。
1）随机梯度降低
优势：能够必定程度上解决局部最优解的问题
缺点：收敛速度较慢
2）批量梯度降低
优势：容易陷入局部最优解
缺点：收敛速度较快
3）mini_batch梯度降低
综合随机梯度降低和批量梯度降低的优缺点，提取的一个中和的方法。
4）牛顿法
牛顿法在迭代的时候，须要计算Hessian矩阵，当维度较高的时候，计算 Hessian矩阵比较困难。
5）拟牛顿法
拟牛顿法是为了改进牛顿法在迭代过程当中，计算Hessian矩阵而提取的算法，它采用的方式是经过逼近Hessian的方式来进行求解。

287.RF与GBDT之间的区别与联系？

1）相同点：都是由多棵树组成，最终的结果都是由多棵树一块儿决定。
2）不一样点：

组成随机森林的树能够分类树也能够是回归树，而GBDT只由回归树组成
组成随机森林的树能够并行生成，而GBDT是串行生成
随机森林的结果是多数表决表决的，而GBDT则是多棵树累加之和
随机森林对异常值不敏感，而GBDT对异常值比较敏感
随机森林是减小模型的方差，而GBDT是减小模型的误差
随机森林不须要进行特征归一化，而GBDT则须要进行特征归一化
288.两个变量的 Pearson 相关性系数为零，但这两个变量的值一样能够相关。(A)

A. 正确
B. 错误

答案:（A）
Pearson相关系数只能衡量线性相关性，但没法衡量非线性关系。如y=x^2，x和y有很强的非线性关系。

289.下面哪一个/些超参数的增长可能会形成随机森林数据过拟合？（B）

A. 树的数量
B. 树的深度
C. 学习速率

答案：（B）
一般状况下，咱们增长树的深度有可能会形成模型过拟合。学习速率并非随机森林的超参数。增长树的数量可能会形成欠拟合。

290.目标变量在训练集上的 8 个实际值 [0,0,0,1,1,1,1,1]，目标变量的熵是多少？（A）

A. −(58log(58)+38log(38))−(58log(58)+38log(38))
B. (58log(58)+38log(38))(58log(58)+38log(38))
C. (38log(58)+58log(38))(38log(58)+58log(38))
D. (58log(38)−38log(58))(58log(38)−38log(58))
答案：（A）

291.下面有关序列模式挖掘算法的描述，错误的是？（C）

A. AprioriAll算法和GSP算法都属于Apriori类算法，都要产生大量的候选序列
B. FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不须要反复扫描原数据库
C. 在时空的执行效率上，FreeSpan比PrefixSpan更优
D. 和AprioriAll相比，GSP的执行效率比较高

@CS青雀，本题解析来源：
机器学习：序列模式挖掘算法

292.下列哪一个不属于经常使用的文本分类的特征选择算法？（D）
A. 卡方检验值
B. 互信息
C. 信息增益
D. 主成分分析

答案：（D）
@CS青雀，本题解析来源：
常采用特征选择方法。常见的六种特征选择方法：
1）DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量，用来衡量某个特征词的重要性
2）MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
若是某个特征词的频率很低，那么互信息得分就会很大，所以互信息法倾向”低频”的特征词。
相对的词频很高的词，得分就会变低，若是这词携带了很高的信息量，互信息法就会变得低效。
3）(Information Gain) 信息增益法
经过某个特征词的缺失与存在的两种状况下，语料中先后信息的增长，衡量某个特征词的重要性。
4）CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想：首先假设特征词与类别直接是不相关的
若是利用CHI分布计算出的检验值偏离阈值越大，那么更有信心否认原假设，接受原假设的备则假设：特征词与类别有着很高的关联度。
5）WLLR(Weighted Log Likelihood Ration)加权对数似然
6）WFO（Weighted Frequency and Odds）加权频率和可能性

293.类域界面方程法中，不能求线性不可分状况下分类问题近似或精确解的方法是？(D)

A. 伪逆法-径向基（RBF）神经网络的训练算法，就是解决线性不可分的状况
B. 基于二次准则的H-K算法：最小均方差准则下求得权矢量，二次准则解决非线性问题
C. 势函数法－非线性
D. 感知器算法－线性分类算法

答案：（D）

294.机器学习中作特征选择时，可能用到的方法有？（E）

A.卡方
B. 信息增益
C. 平均互信息
D. 指望交叉熵
E. 以上都有

答案：（E）

295.下列方法中，不能够用于特征降维的方法包括（E）

A. 主成分分析PCA
B. 线性判别分析LDA
C. 深度学习SparseAutoEncoder
D. 矩阵奇异值分解SVD
E. 最小二乘法LeastSquares

答案：（E）
特征降维方法主要有：PCA，LLE，Isomap
SVD和PCA相似，也能够当作一种降维方法。
LDA:线性判别分析，可用于降维。
AutoEncoder：AutoEncoder的结构与神经网络的隐含层相同，由输入L1,输出 L2组成，中间则是权重链接。Autoencoder经过L2获得输入的重构L3，最小化L3与L1的差异进行训练获得权重。在这样的权重参数下，获得的L2能够尽量的保存L1的信息。
Autoencoder的输出L2的维度由输出的神经元个数决定。当输出维度大于L1时，则须要在训练目标函数中加入sparse 惩罚项，避免L2直接复制L1（权重全为1）。因此称为sparseAutoencoder( Andrew Ng提出的)。
结论：SparseAutoencoder大多数状况下都是升维的，因此称之为特征降维的方法不许确。

296.通常，K-NN最近邻方法在（ A）的状况下效果较好。

A．样本较多但典型性很差
B．样本呈团状分布
C．样本较少但典型性好
D．样本呈链状分布

297.下列哪些方法能够用来对高维数据进行降维（A B C D E F）

A. LASSO
B. 主成分分析法
C. 聚类分析
D. 小波分析法
E. 线性判别法
F. 拉普拉斯特征映射

解析：LASSO经过参数缩减达到降维的目的；
PCA就不用说了；
线性鉴别法即LDA经过找到一个空间使得类内距离最小类间距离最大因此能够看作是降维；
小波分析有一些变换的操做下降其余干扰能够看作是降维；
拉普拉斯请看机器学习降维算法四：Laplacian Eigenmaps 拉普拉斯特征映射。

298.如下描述错误的是（C）

A. SVM是这样一个分类器，它寻找具备最小边缘的超平面，所以它也常常被称为最小边缘分类器
B. 在聚类分析当中，簇内的类似性越大，簇间的差异越大，聚类的效果就越差
C. 在决策树中，随着树中结点输变得太大，即便模型的训练偏差还在继续下降，可是检验偏差开始增大，这是出现了模型拟合不足的缘由
D. 聚类分析能够看做是一种非监督的分类

299.如下说法中正确的是（C）

A. SVM对噪声（如来自其余分部的噪声样本）具有鲁棒性
B. 在adaboost算法中，全部被分错样本的权重更新比例相同
C. boosting和bagging都是组合多个分类器投票的方法，两者都是根据单个分类器的正确率肯定其权重
D. 给定n个数据点，若是其中一半用于训练，一半用户测试，则训练偏差和测试偏差之间的差异会随着n的增长而减小

300.关于正态分布,下列说法错误的是（C）

A. 正态分布具备集中性和对称性
B. 正态分布的均值和方差可以决定正态分布的位置和形态
C. 正态分布的偏度为0，峰度为1
D. 标准正态分布的均值为0，方差为1

301.在如下不一样的场景中,使用的分析方法不正确的有（B）

A. 根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级
B. 根据商家近几年的成交数据,用聚类算法拟合出用户将来一个月可能的消费金额公式
C. 用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫
D. 根据用户最近购买的商品信息,用决策树算法识别出淘宝买家多是男仍是女

302.什么是梯度爆炸？

答案：偏差梯度是神经网络训练过程当中计算的方向和数量，用于以正确的方向和合适的量更新网络权重。
在深层网络或循环神经网络中，偏差梯度可在更新中累积，变成很是大的梯度，而后致使网络权重的大幅更新，并所以使网络变得不稳定。在极端状况下，权重的值变得很是大，以致于溢出，致使 NaN 值。
网络层之间的梯度（值大于 1.0）重复相乘致使的指数级增加会产生梯度爆炸。

303.梯度爆炸会引起什么问题？

答案：在深度多层感知机网络中，梯度爆炸会引发网络不稳定，最好的结果是没法从训练数据中学习，而最坏的结果是出现没法再更新的 NaN 权重值。

梯度爆炸致使学习模型没法从训练数据中得到更新（如低损失）。
模型不稳定，致使更新过程当中的损失出现显著变化。
训练过程当中，模型损失变成 NaN。
若是你发现这些问题，那么你须要仔细查看是否出现梯度爆炸问题。
如下是一些稍微明显一点的信号，有助于确认是否出现梯度爆炸问题。

训练过程当中模型梯度快速变大。
训练过程当中模型权重变成 NaN 值。
训练过程当中，每一个节点和层的偏差梯度值持续超过 1.0。
305.如何修复梯度爆炸问题？

从新设计网络模型
在深度神经网络中，梯度爆炸能够经过从新设计层数更少的网络来解决。
使用更小的批尺寸对网络训练也有好处。
在循环神经网络中，训练过程当中在更少的先前时间步上进行更新（沿时间的截断反向传播，truncated Backpropagation through time）能够缓解梯度爆炸问题。
使用 ReLU 激活函数
在深度多层感知机神经网络中，梯度爆炸的发生多是由于激活函数，如以前很流行的 Sigmoid 和 Tanh 函数。
使用 ReLU 激活函数能够减小梯度爆炸。采用 ReLU 激活函数是最适合隐藏层的新实践。
使用长短时间记忆网络
在循环神经网络中，梯度爆炸的发生多是由于某种网络的训练自己就存在不稳定性，如随时间的反向传播本质上将循环网络转换成深度多层感知机神经网络。
使用长短时间记忆（LSTM）单元和相关的门类型神经元结构能够减小梯度爆炸问题。
采用 LSTM 单元是适合循环神经网络的序列预测的最新最好实践。
使用梯度截断（Gradient Clipping）
在很是深且批尺寸较大的多层感知机网络和输入序列较长的 LSTM 中，仍然有可能出现梯度爆炸。若是梯度爆炸仍然出现，你能够在训练过程当中检查和限制梯度的大小。这就是梯度截断。
处理梯度爆炸有一个简单有效的解决方案：若是梯度超过阈值，就截断它们。
——《Neural Network Methods in Natural Language Processing》，2017.
具体来讲，检查偏差梯度的值是否超过阈值，若是超过，则截断梯度，将梯度设置为阈值。
梯度截断能够必定程度上缓解梯度爆炸问题（梯度截断，即在执行梯度降低步骤以前将梯度设置为阈值）。
——《深度学习》，2016.
在 Keras 深度学习库中，你能够在训练以前设置优化器上的 clipnorm 或 clipvalue 参数，来使用梯度截断。
默认值为 clipnorm=1.0 、clipvalue=0.5。
使用权重正则化（Weight Regularization）
若是梯度爆炸仍然存在，能够尝试另外一种方法，即检查网络权重的大小，并惩罚产生较大权重值的损失函数。该过程被称为权重正则化，一般使用的是 L1 惩罚项（权重绝对值）或 L2 惩罚项（权重平方）。
对循环权重使用 L1 或 L2 惩罚项有助于缓解梯度爆炸。
——On the difficulty of training recurrent neural networks，2013.
在 Keras 深度学习库中，你能够经过在层上设置 kernel_regularizer 参数和使用 L1 或 L2 正则化项进行权重正则化。
306. LSTM神经网络输入输出到底是怎样的？

答案：@YJango，本题解析来源：LSTM神经网络输入输出到底是怎样的？

307.如下关于PMF(几率质量函数),PDF(几率密度函数),CDF(累积分布函数)描述错误的是？（A）

A. PDF描述的是连续型随机变量在特定取值区间的几率
B. CDF是PDF在特定区间上的积分
C. PMF描述的是离散型随机变量在特定取值点的几率
D. 有一个分布的CDF函数H(x),则H(a)等于P(X<=a)

答案：（A）
几率质量函数 (probability mass function，PMF)是离散随机变量在各特定取值上的几率。
几率密度函数（p robability density function，PDF ）是对连续随机变量定义的，自己不是几率，只有对连续随机变量的取值进行积分后才是几率。
累积分布函数（cumulative distribution function，CDF）能完整描述一个实数随机变量X的几率分布，是几率密度函数的积分。对于全部实数x 与pdf相对。

308.线性回归的基本假设有哪些？(ABDE)

A. 随机偏差项是一个指望值为0的随机变量；
B. 对于解释变量的全部观测值，随机偏差项有相同的方差；
C. 随机偏差项彼此相关；
D. 解释变量是肯定性变量不是随机变量，与随机偏差项之间相互独立；
E. 随机偏差项服从正态分布

309.处理类别型特征时，事先不知道分类变量在测试集中的分布。要将 one-hot encoding（独热码）应用到类别型特征中。那么在训练集中将独热码应用到分类变量可能要面临的困难是什么？（A、B）

A. 分类变量全部的类别没有所有出如今测试集中
B. 类别的频率分布在训练集和测试集是不一样的
C. 训练集和测试集一般会有同样的分布

答案：（A、B ）
若是类别在测试集中出现，但没有在训练集中出现，独热码将不能进行类别编码，这是主要困难。若是训练集和测试集的频率分布不相同，咱们须要多加当心。

310.假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入，你会获得输出「-0.0001」。X 多是如下哪个激活函数？（B）

A. ReLU
B. tanh
C. SIGMOID
D. 以上都不是

答案：（B）
该激活函数多是 tanh，由于该函数的取值范围是 (-1,1)。

311.下面哪些对「类型 1（Type-1）」和「类型 2（Type-2）」错误的描述是正确的？(A、C）

A. 类型 1 一般称之为假正类，类型 2 一般称之为假负类。
B. 类型 2 一般称之为假正类，类型 1 一般称之为假负类。
C. 类型 1 错误一般在其是正确的状况下拒绝假设而出现。

答案：(A、C)
在统计学假设测试中，I 类错误即错误地拒绝了正确的假设即假正类错误，II 类错误一般指错误地接受了错误的假设即假负类错误。

312.在下面的图像中，哪个是多元共线（multi-collinear）特征？（D）

A. 图 1 中的特征
B. 图 2 中的特征
C. 图 3 中的特征
D. 图一、2 中的特征
E. 图二、3 中的特征
F. 图一、3 中的特征

答案：（D）
在图 1 中，特征之间有高度正相关，图 2 中特征有高度负相关。因此这两个图的特征是多元共线特征。

313.鉴别了多元共线特征。那么下一步可能的操做是什么？（B、C）

A. 移除两个共线变量
B. 不移除两个变量，而是移除一个
C. 移除相关变量可能会致使信息损失，能够使用带罚项的回归模型（如 ridge 或 lasso regression）。

答案：（B、C）
由于移除两个变量会损失一切信息，因此咱们只能移除一个特征，或者也能够使用正则化算法（如 L1 和 L2）。

314.给线性回归模型添加一个不重要的特征可能会形成？（A）

A. 增长 R-square
B. 减小 R-square

答案：（A）
在给特征空间添加了一个特征后，不论特征是重要仍是不重要，R-square 一般会增长。

315.假定目标变量的类别很是不平衡，即主要类别占据了训练数据的 99%。如今你的模型在测试集上表现为 99% 的准确度。那么下面哪一项表述是正确的？（A、C）

A. 准确度并不适合于衡量不平衡类别问题
B. 准确度适合于衡量不平衡类别问题
C. 精确率和召回率适合于衡量不平衡类别问题
D. 精确率和召回率不适合于衡量不平衡类别问题

答案：（A、C）

316.什么是误差与方差？

泛化偏差能够分解成误差的平方加上方差加上噪声。误差度量了学习算法的指望预测和真实结果的偏离程度，刻画了学习算法自己的拟合能力，方差度量了一样大小的训练集的变更所致使的学习性能的变化，刻画了数据扰动所形成的影响，噪声表达了当前任务上任何学习算法所能达到的指望泛化偏差下界，刻画了问题自己的难度。误差和方差通常称为bias和variance，通常训练程度越强，误差越小，方差越大，泛化偏差通常在中间有一个最小值，若是误差较大，方差较小，此时通常称为欠拟合，而误差较小，方差较大称为过拟合。

317.解决Bias和Variance问题的方法是什么？

交叉验证
High Bias解决方案:Boosting、复杂模型（非线性模型、增长神经网络中的层）、更多特征
High Variance解决方案：agging、简化模型，降维

318.采用 EM 算法求解的模型有哪些，为何不用牛顿法或梯度降低法？

用EM算法求解的模型通常有GMM或者协同过滤，K-means其实也属于EM。EM算法必定会收敛，可是可能收敛到局部最优。因为求和的项数将随着隐变量的数目指数上升，会给梯度计算带来麻烦。

319.XGBoost怎么给特征评分？

在训练的过程当中，经过Gini指数选择分离点的特征，一个特征被选中的次数越多，那么该特征评分越高。

320.什么是OOB？随机森林中OOB是如何计算的，它有什么优缺点？

Bagging方法中Bootstrap每次约有1313的样本不会出如今Bootstrap所采集的样本集合中，固然也就没有参加决策树的创建，把这1313的数据称为袋外数据OOB（out of bag）,它能够用于取代测试集偏差估计方法。

袋外数据(OOB)偏差的计算方法以下：对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据做为输入,带进以前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,由于这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据偏差大小=XOXO;这已经通过证实是无偏估计的,因此在随机森林算法中不须要再进行交叉验证或者单独的测试集来获取测试集偏差的无偏估计。--------------------- 做者：qinjianhuang 来源：CSDN 原文：https://blog.csdn.net/sinat_35512245/article/details/78796328 版权声明：本文为博主原创文章，转载请附上博文连接！