神经网络训练经验

网路介绍:效率 层数太深,变得难训练,特别是全链接层不要超过3层 训练容易卡在输出值的均值附近(平坦期) 减小batch size能够有效跨越训练的平坦期 最差的GPU运算一半也有最好的cpu运算的10倍效率 用小batch度过平坦期后,也须要加大batchsize。由于当小batch降低到必定程度以后,就一直会震荡了。
相关文章
相关标签/搜索