深度学习--超参调试-正则化及优化3

超参数调整顺序: 随机取值而不是网格取值,效果更好 alpha取值: beta取值:   Batch normalization:使参数搜索问题变得更容易,使神经网络对超参数的学习更稳定 思路:对于多层网络,隐含层在激活函数之前归一化z[i],使w[i],b[i]更快收敛 每个节点增加了两个优化变量,因为我们可能不希望隐藏单元的值必须是均值为0方差为1. 比如我们可能不希望z都是在0-1,即位于激
相关文章
相关标签/搜索