[李宏毅-机器学习]Tips for deep learning

  Activation fucntion sigmoid对深层网络效果不好,可能会导致梯度消失问题 sigmoid对输入比较大,得到的输出比较小 ReLU   Maxout 自动学习出来需要的activation function   梯度下降优化方式 AdaGrad   RMSProp Adagrad改进版,对过去和现在的梯度(不带方向,平方去掉了方向)进行加权   动量Momentum 用于
相关文章
相关标签/搜索