前馈网络训练的困难

(早期)神经网络通常使用随机初始化和标准的梯度下降法来训练,但是效果不好,这是由于非线性激活层饱和(虽然有时能够自己走出饱和区域)。 目前已经通过良好的初始化和一些训练策略取得了较好的训练效果。 尤其是无监督的预训练(目前来看已经是标准的初始化操作),可能的原因是由于无监督的预训练相当于正则化矩阵,将参数设为更加容易收敛的状态。 但是目前我们致力于分析是什么样的原因使得训练多层深度网络变差。 无限
相关文章
相关标签/搜索