权值初始化方法之Xavier与MSRA

首先介绍一下Xavier等初始化方法比直接用高斯分布进行初始化W的优势所在:  一般的神经网络在前向传播时神经元输出值的方差会不断增大,而使用Xavier等方法理论上可以保证每层神经元输入输出方差一致。  这里先介绍一个方差相乘的公式,以便理解Xavier: Xavier 现在我们先来分析一层卷积:    其中ni表示输入个数。 根据概率统计知识我们有下面的方差公式:  特别的,当我们假设输入和权
相关文章
相关标签/搜索