梯度与激活函数

文章目录 梯度 初始化的影响 学习率的影响 动量 常见公式求解梯度 激活函数 derivative Sigmoid Logistic Tanh RELU Softmax 梯度 初始化的影响 同样的网络,同样的参数,初始化不同,梯度下降的速度不同,得到最小值也不同,如上图。 学习率的影响 学习率影响收敛的速度,初始情况下可以设置的大一些,不收敛在设置的小一些。 动量 梯度下降的时候,可能到达局部最优
相关文章
相关标签/搜索