在基于DNN-HMM的语音识别中,DNN的做用跟GMM是同样的,即它是取代GMM的,具体做用是算特征值对每一个三音素状态的几率,算出来哪一个最大这个特征值就对应哪一个状态。只不过之前是用GMM算的,如今用DNN算了。这是典型的多分类问题,因此输出层用的激活函数是softmax,损失函数用的是cross entropy(交叉熵)。不用均方差作损失函数的缘由是在分类问题上它是非凸函数,不能保证全局最优解(只有凸函数才能保证全局最优解)。Kaldi中也支持DNN-HMM,它还依赖于上下文(context dependent, CD),因此叫CD-DNN-HMM。在kaldi的nnet1中,特征提取用filterbank,每帧40维数据,默认取当前帧先后5帧加上当前帧共11帧做为输入,因此输入层维数是440(440 = 40*11)。同时默认有4个隐藏层,每层1024个网元,激活函数是sigmoid。今天咱们看看网络的各类参数是怎么获得的(手写推导)。因为真正的网络比较复杂,为了推导方便这里对其进行了简化,只有一个隐藏层,每层的网元均为3,同时只有weight没有bias。这样网络以下图:网络
上图中输入层3个网元为i1/i2/i3(i表示input),隐藏层3个网元为h1/h2/h3(h表示hidden),输出层3个网元为o1/o2/o3(o表示output)。隐藏层h1的输入为 (q11等表示输入层和隐藏层之间的权值),输出为
。输出层o1的输入为
(w11等表示隐藏层和输出层之间的权值),输出为
。其余可相似推出。损失函数用交叉熵。今天咱们看看网络参数(以隐藏层和输出层之间的w11以及输入层和隐藏层之间的q11为例)在每次迭代训练后是怎么更新的。先看隐藏层和输出层之间的w11。函数
1,隐藏层和输出层之间的w11的更新blog
先分别求三个导数的值:input
因此最终的w11更新公式以下图:bfc
2,输入层和隐藏层之间的q11的更新im
先分别求三个导数的值:d3
因此最终的q11更新公式以下图:数据
以上的公式推导中若有错误,烦请指出,很是感谢!filter