deep learning tips

dropout是为了防止过拟合,实在testing data上面效果不好时用的,而training data效果不好的时候不会考虑这个方法。 vanishing gradient problem和 exploding gradient:梯度消失和梯度爆炸问题,可以参考此篇博客。 Regularization: L2: 不考虑bias是因为我们加入正则是为了让我们的function更平滑,而bias
相关文章
相关标签/搜索