机器学习面试常见问题&答案 ①

时间 2019-11-06

标签机器学习面试常见问题答案栏目快乐工作繁體版

原文原文链接

给定卷积神经网络输入，卷积核大小，padding，步长，求输出的shape？
各个激活函数的优缺点算法
- Sigmod编程
  - - 优势微信
      - 输出值0-1（很重大的优势）
      - 其他的和其余众多激活函数比起来，感受没有什么优势，方便入门理解
    - 缺点网络
      - 容易梯度消失
      - x的可变值区域过小，极其容易陷入级值的情况（-0.9~0.9）
      - 指数exp计算复杂
- Tanhapp
  - - 优势ide
      - 和sigmod比起来，是零均值化处理。（零均值化能够加快模型的收敛）
    - 缺点函数
      - 和sigmod同样的缺点
- Relu性能
  - - 优势学习
      - 计算复杂度低（只有一个if>0判断，大于0则激活值为1），部分区域线性递增，没有幂运算与指数运算
    - 缺点优化
      - x小于0时没法产生激活值
      - 训练到后期可能权重参数更新太大
- Leakly ReLu
  - - 优势
      - 相对于relu来讲，激活值必然能够产生
    - 缺点
      - Relu的其余缺点一律继承下来了
- ELU
  - - 优势
      - 相对于Leaky relu来讲，激活值更平滑
    - 缺点
      - 其余的Leaky relu的缺点一并继承下来了。

如何选择激活函数？
- Relu-当心设置learning
  
  rate（由于x>0的状况下，导数均为1），最好是设置一个比较小的值。
- 不要使用sigmod（缺点太多，计算复杂）
如何初始化CNN？（理论）
- 不要所有把超参数设置为0（单层网络能够）
  - 容易梯度消失
如何初始化CNN？（实践）
- Xavier-tanh（不太适合relu)
  - fan_in输出通道数
  - Fan_out输出通道数
    - 代码Np.randon.rand(fan_in,fan_out)/np.sqrt(fan_in/2)
如何分析初始化参数结果好坏？
- 查看初始化后各层的激活值分布
  - 是否在固定的，稳定的，同一个区间的均匀分布
- 比较好的初始化结果
  - 均值为0，方差为0.02
    - 如tanh，relu函数

什么叫梯度消失，梯度爆炸
- 当网络层数过多时，前面层因为求导过程乘积运算，出现weight与bias变得异常大与异常小的状况
  - 左下角的内容清楚的说明了梯度爆炸和梯度消失的场景

BN是什么，为何能提升收敛速度
- 批归一化是什么？
  - 标准化处理，特征缩放的一个方式，将数据规整到必定范围内。
  - 如上图所示，BN步骤主要分为4步：
    - 求每个训练批次数据的均值
    - 求每个训练批次数据的方差
    - 使用求得的均值和方差对该批次的训练数据作归一化，得到0-1分布。其中εε是为了不除数为0时所使用的微小正数。
    - 尺度变换和偏移：将xixi乘以γγ调整数值大小，再加上ββ增长偏移后获得yiyi，这里的γγ是尺度因子，ββ是平移因子。这一步是BN的精髓，因为归一化后的xixi基本会被限制在正态分布下，使得网络的表达能力降低。为解决该问题，咱们引入两个新的参数：γγ,ββ。 γγ和ββ是在训练时网络本身学习获得的。
为何能提升收敛速度?
- 解决internal covariate shift问题。
- 特征没有消失，而是归一到必定范围内，加快学习速度
- 由于最终都是映射到归一化范围内，因此前一层的权重调整对后一层的影响程度都会下降，不用从新适应新的分布，从而让模型学的更快，避免彻底从头学习
Tips
- BN不用于输入层和输出层（经验论）
BN（实践）
- 每次batch传入时都作BN
各个优化器的优缺点
- 优化器分两种
  - 固定学习率的优化算法
    - SGD随机梯度降低
      - 优势
        
        只随机采样一个样原本计算梯度，加快学习效率，而且避免了普通GD一次性参数更新的坏处（致使模型没法收敛）
      - 缺点
        
        选择合适的学习率较为困难
    - Momentum动量
      - 优势
        
        动量梯度降低，动力火车，惯性火车，这一次梯度降低的值，会影响下一次梯度降低的值，相对于简单的梯度降低来讲，Momentum动量带有延续性相对于简单的梯度降低来讲，
        
        减小梯度震荡
      - 缺点
        
        和SGD同样，选择合适的学习率较为困难
  - 自适应学习率的优化算法
    - Adagrad
      - 优势
        
        更新参数时，会针对原梯度值乘上一个变量，即其全部梯度历史平均值总和的平方根（如上图）
        
        这样在训练初期，分母较小，学习率较大，学习比较快，后期时，学习会逐渐减慢
      - 缺点
        
        从训练开始就积累梯度方差会致使有效学习率过早和过量的减少
        
        只能解决凸问题，当应用于非凸函数训练神经网络时，学习可能会到达一个局部是凸碗的区域
    - RMSProp
      - 优势
        
        可以解决凸问题
        
        由累计平方梯度变成和平均梯度
      - 缺点
        
        缺乏Momentum动量元素
    - Adam（结合了动量和RMSProp，通用方案）
      - 结合了Momentum和RMSProp的优势
手画一下LSTM
梯度裁剪
介绍一下残差网络
- ResNet 基于VGG没解决深层网络下出现性能[梯度消失，致使学不到东西]与效率降低[反向传播运算成本大]的问题，优化出来的一个新的神经网络结构，如图所示，两条路一块儿走，最终线性激活输入值f(x)+x，而后将f(x)+x传递给激活函数[假设为relu]。那么在反向传播的时候，后面层的梯度更加“无损”的直接传递到前面层，前面层的参数所以也能继续更新。

为何残差网络会有效果？

□ 先验证实《深层网络效果会比浅层网络好》
- 只要有理想的训练方式，更深的网络确定会比较浅的网络效果要好。证实过程也很简单：假设在一种网络A的后面添加几层造成新的网络B，若是增长的层级只是对A的输出作了个恒等映射(identity mapping)，即A的输出通过新增的层级变成B的输出后没有发生变化，这样网络A和网络B的错误率就是相等的，也就证实了加深后的网络不会比加深前的网络效果差。
- 当层数比较多时，容易致使模型学不到东西，甚至出现反效果，然而deep layers又确实是能使模型效果变好的，因此出现残差网络。
- 效率不影响，层数增长，能够低成本高效率的学到更多非线性的特征。
  
  解决梯度弥漫问题
  - 如上所说，关键点在于反向传播的时候，梯度能够沿着shortcut无损进行回传，避免梯度弥漫问题。
解决模型退化问题
- 避免了过渡训练后，致使模型准确率反而下降的状况。paper中称为degration。通过实验后发现确实能解决这个问题。
- 本人对于这个问题的确切缘由并不清楚，可是猜想这个缘由极可能是因为梯度消失以及众多其余缘由所形成的。
Q:既然说中间层是没必要要的，那么为何不直接把这些层去掉呢？可事实上，ResNet的结果比浅层网络的结果好的多，这应该怎么解释呢？
- 加入中间层主要是为了说明会产生退化的效果。 ResNet效果好是由于解决了退化问题，,梯度爆炸/梯度弥散，调节了网络结构，简化了反向传播求导运算的流程。这和砍掉深一点的层是不同的思想

风格转换的原理
- 图像风格转换
  - 由风格特征与内容特征共同计算得出
  - 风格特征
    - 风格的抽象度（越日后层，加入了越多内容的元素，更加具像）
  - 内容特征
    - 内容的类似度（越日后层，加入了越多风格的元素，和原图越不像）
## 怎么解决过拟合

简化模型

正则化（包含dropout）

数据加强

集成学习

早停

减小特征数或使用较少的特征组合

## 怎么解决欠拟合

增长特征数或者使用较多的特征组合

减少正则权重

增长模型复杂度

使用boosting集成学习

如何提升学习算法性能的指导方针
- ->低可拟合误差
  - 更大的模型，更深的层
  - 更好的优化器方案
  - 探索更合适的超参数
- ->低方差
  - 找寻更多的数据
  - 正则化，dropout
  - 对抗神经网络
  - 探索更合适的超参数
- ->清晰的正交化方案
  - ……
  - 思路逻辑清晰的调试
数据预处理通常步骤有哪些？
- 指定原始数据的文件列表 -> 建立文件列表队列 ->
  从文件中读取数据 -> 数据预处理 -> 整理成batch
  做为神经网络输入

如何用指标和方案去评判一个优秀的模型?
- train/Validation/Test 准确率/召回率
- 方差
- 误差

CNN模型加速与压缩汇总

1. 合理设计模型
2. 权值剪枝（编程稀疏矩阵）

3. 权值量化（聚类）

4. 二值化（BWN，XNorNet）

5. 霍夫曼编码

6. 奇异值分解（projection层）

7. 1x1卷积的恰当使用减小通道量

8. 卷积分解为deepwise Conv和pointwise
Conv可大幅度减少计算量和参数量1/（Dk^2）

9. Group Conv（可节省1/g计算量）

10. Channel Shuffle

11. 蒸馏法

12. 低秩分解

13. 模型裁剪

# 怎么选择超参数

神经网路中的超参数主要包括
1. 学习率 η，

2. 正则化参数 λ，

3. 神经网络的层数 L

4. 每个隐层中神经元的个数 j

5. 学习的回合数Epoch

6. 小批量数据 minibatch 的大小

由神经网络的机理进行选择

7. 输出神经元的编码方式

8. 代价函数的选择

9. 权重初始化的方法

10. 神经元激活函数的种类

11 . 宽泛策略的核心在于简化和监控

12. 参加训练模型数据的规模

如文章你已看懂，点个「喜欢」便可。如若错误以及不清晰的地方，随时提出。欢迎扫一扫上面二维码加入个人我的微信号进行技术交流。

机器学习 面试常见问题&答案 ①

机器学习面试常见问题&答案 ①