学习笔记之Batch Normalization

学习笔记之Batch Normalization 本文参考:台大李宏毅老师 梯度消失或者梯度爆炸是什么? 链接1 链接2 特征缩放 输入值大小不一样会导致出现梯度消失或者爆炸的现象 比如x1的是1,2,…,x2的是100,200,…如果x1和x2一样重要(w1,w2一样),那么显然x2对a的结果影响大 这样会导致training变的不容易,橫方向上要给较大的learning rate ,纵方向上给
相关文章
相关标签/搜索