第一次笔试总结

    sigmoid函数的优点在于,它的输出映射在(0,1)内,单调连续,非常适合用做输出层,并且求导比较容易。但是一旦输入落入饱和区,容易产生梯度消失。梯度小时是指在更新模型参数时采用链式求导法则反向求导,越往前梯度越小。最终的结果时到达一定深度后梯度对模型的更新就没有任何贡献了。 输出以0为中心,收敛速度比sigmoid要快,无法解决梯度消失 f(x)=max(x,0) relu在x<0时硬
相关文章
相关标签/搜索