DL study 8 正则化

L1范数和L2范数 ------- dropout也可以看成是一种正则化,因为随机去掉一些单元,就使网络结构变得简单,就相当于是不让网络那么复杂,产生过拟合。但是dropout的时候,损失函数j是不好计算的(因为有些单元为0)。所以先用没有dropout的网络计算损失函数,损失函数曲线是收敛的。然后再用dropout方法。【网易云课堂】 
相关文章
相关标签/搜索