深层神经网络

深层神经网络求梯度的大致过程: 偏差和方差: 过拟合措施(正则化): w是参数矩阵 L2正则化又称为权重衰减,w的矩阵乘了一个比1小的数,在进行同之前的梯度递减,所以整个过程又称为“权重衰减”。 原因:lamda足够大,则w接近0,直观理解就是把多个隐藏单元的权重设置为零,于是消除了这些影响,网络得以简化. 过拟合措施(dropout): 每层的keep.prob可以设置不同值,对于w比较大的容易
相关文章
相关标签/搜索