李宏毅机器学习——学习笔记(8)Deep Learning

Deep Learning

  • Deep learning的结果不够好,不仅仅是因为over fitting的问题,有可能在training data上的结果就不算很好;如果在testing data上结果不算很好就是over fitting的问题。
  • 解决deep learning 上效果不好的方式对应也有两类解决方式。前两种用于解决在training data上效果不好的问题,后三种用于解决over fitting的问题。
    1. 设计新的activation function

      (1) 由于sigmod函数在较大差别输入的情况下,输出的差别较小,逐层消减影响。所以靠近input layer的几层网络更新速度较为缓慢,而靠近output layer的几层网络更新速度较快,当前几层参数还处于随机数状态时,后面几层就已经收敛了。因而在traning data上表现不佳。在这里插入图片描述
      可以使用ReLu(Rectified Linear Unit) function来代替,ReLu的计算更快,可以看作不同bias的sigmod函数结合,更重要的是可以解决传统激活函数的梯度下降速率不一致的问题。
      在这里插入图片描述
      (2)Maxout函数是一种可以自主学习激活函数的一种函数,由多段的线性函数所组成,Relu函数只是其中的特例。
      在这里插入图片描述
      虽然maxout函数不是所有的地方都可以求导,但是在给定输入的情况下,这个网络就是一个线性函数,可以直接进行gradient descent。对于不同的example,训练不同网络上不同连接线上的权重,所以可以达到对整个网络进行训练的结果。
      在这里插入图片描述

    2. 自适应的learning rate:

      (1)RMSProp:由于loss函数是比较高维的函数,在每个参数上loss的变化情况很难被刻画出来,有的时候需要较大的learning rate去跨越“峡谷”,有的时候又希望是较小的learning rate。
      在这里插入图片描述
      (2)在原来gradient descent的基础上,加入“惯性”这个指标,将前一次gradient descent的指标考虑进去,希望能够跨越小的“峡谷和平原”。
      在这里插入图片描述
      实现过程与蚁群算法有点相似,考虑这一次的gradient descent方向和上一次的更新方向,得到这一次的更新方向。其中adam是RMSprop和Momentum的结合。
      在这里插入图片描述

    3. 解决overfiting的三种方式:

      (1)Early Stopping:使用validation set来实现这一操作。当validation set上的performance变差的时候,我们就停止训练。
      在这里插入图片描述
      (2)Regularization:在loss后面加上正则项,去除无用链接,防止模型随着输入的变化而波动过大。
      在这里插入图片描述
      每一次的更新过程都是让w乘以一个小于1的值,如果该参数对模型的loss没什么影响,当迭代次数逐渐增加的时候,w的值就去趋近于零了。
      在这里插入图片描述
      L2范式和L1范式不一样的地方在与,L2范式上是乘性惩罚,对较大参数惩罚较大,而L1范式对于每个参数都是加减同样的值。因而L2范式得到的值都趋近于0,而L1范式得到的参数值可能差距较大。
      (3)Dropout:指的是在进行training之前,对每次的mini-batch都会先随机抽取一些neuro消失,且与之连接的weight也失去作用了,从而使得网络的结构发生变化。在testing的时候,是不进行dropout的,但是如果training的时候p%的概率dropout,那个每个weight要乘以(1-p%)。
      在这里插入图片描述
      为什么要乘以(1-p%)呢?因为训练过程中,只有少部分的weight被用得到目标预测值,所以真正testing的时候,如果用所有的权重,所得到的结果会大于目标值,让权重乘以(1-p%)为了将权重削弱,让最终的结果接近于目标值。
      在这里插入图片描述
      dropout 是ensemble的一种极致表现,每一个mini_batch训练一种neural network,由于不同的neural network上的参数是共享的,因而不用担心一个mini_batch训练不了一个neural network的问题。而且在testing data上,不是所有的neural network上得到的结果求平均,而是将所有的weight乘以(1-p%),所得到的值就约等于平均值。这种方式只有在linear的情况下才成立,在有non-linear(例如,sigmod函数)的情况下是不成立的。但是dorpout依然有作用。
      在这里插入图片描述
      在这里插入图片描述