基于输出分布的小尺寸DNN学习准则

Interspeech 2014 Learning Small-Size DNN with Output-Distribution-Based Criteria 算法

简述 函数

为了减少离线模型(好比用于嵌入式设备)的大小,能够减少每一个隐层的节点数或者减少输出层的目标节点数。 ui

减少每一个隐层的节点数 spa

教师模型(L)与学生模型(S)之间的KL散度为: 3d

训练流程为: blog

  1. 使用带转录数据训练教师模型
  2. 使用无转录数据对学生模型进行预训练
  3. 使用无转录数据以上述算法计算mini-batch的准则函数,并反向传播

   

与直接重训相比,上述TS训练方法在375小时数据集上取得13.59%WER降低 ci

减少输出层的目标节点数 get

传统生成三音素集方法的问题在于 it

  • 基于似然决策树分裂以得到DNN建模的三音素集中,三音素集是由对应MFCCPLP特征的单高斯分布决定的,与后续训练DNN的流程无关。

   

本文提出先用标准方法生成较大的三音素集,而后基于DNN相关的特征对大三音素集进行聚类。 io

   

根据Equivalence of generative and log-linear models,对数线性模型等价于一个高斯模型:

   

softmax函数能够看做是如下对数线性函数:

   

训练流程为:

  1. 使用标准训练流程训练大三音素集的DNN
  2. 将大三音素集DNN的输出层转换为多个高斯模型
  3. 对上述高斯模型使用对称KL散度进行聚类,为聚类后每一个集合分配一个三音素ID
  4. 将训练数据对齐中,将大三音素ID替换为小三音素集ID,而后对DNN进行重训

实验结果与结论

与使用标准流程用决策树从新生成三音素集相比,基于高斯KL聚类的方法在375小时能取得1.33%WER降低

原文

Li, Jinyu, Rui Zhao, Jui-Ting Huang, and Yifan Gong. "Learning small-size DNN with output-distribution-based criteria." In Fifteenth annual conference of the international speech communication association. 2014.

相关文章
相关标签/搜索