语音识别实践7.1——训练加速

时间 2021-01-21

原文原文链接

GPU流水线反向传播异步随机梯度下降增广拉格朗日算法及乘子方向交替算法减小模型规模改善训练速度可以通过更好的训练算法或者使用更小的模型。DNN中的权值矩阵大体上是低秩的，且DNN最后一层占用了系统50%的模型参数以及训练计算量。且DNN任意层只有最大的30%~40%的权重是重要的，每个权值矩阵可以近似地进行低秩分解且没有识别精度的损失。使用SVD，每个权值矩阵可以分解为两个更小的矩阵，从

>>阅读原文<<