FixedAffineComponent:类 LDA-like 的非相关转换,由标准的 weight matrix plus bias 组成(即Wx+b),经过标准的 stochastic gradient descent(非minibatch SGD?) 训练而来,使用 global learning rate网络
AffineComponentPreconditionedOnline:为 FixedAffineComponent 的一种提炼,训练过程当中不只使用global learning rate,还使用 matrix-valued learning rate(矩阵形式的学习率)来预处理梯度降低。参见 dnn2_preconditioning。app
PnormComponent:为非线性,传统的神经网络模型中使用 TanhComponentiphone
NormalizeComponent:用于稳定训练 p-norm 网络,它是固定的,非可训练,非线性的。它不是在个别 individual activations(即个别结点的激活) 上起做用,而是对单帧的整个 vector 起做用,从新使它们单位标准化。ide
SoftmaxComponent:为最终的非线性特征,便于输出标准几率学习
SpliceComponent: 定义了完成 feature-frame-splicing 的窗口尺寸spa
FixedAffineComponent:类 LDA-like 的非相关转换,由标准的 weight matrix plus bias 组成(即Wx+b),经过标准的 stochastic gradient descent(非minibatch SGD?) 训练而来,使用 global learning ratecomponent
AffineComponentPreconditionedOnline:为 FixedAffineComponent 的一种提炼,训练过程当中不只使用global learning rate,还使用 matrix-valued learning rate(矩阵形式的学习率)来预处理梯度降低。参见 dnn2_preconditioning。orm
PnormComponent:为非线性,传统的神经网络模型中使用 TanhComponentip
NormalizeComponent:用于稳定训练 p-norm 网络,它是固定的,非可训练,非线性的。它不是在个别 individual activations(即个别结点的激活) 上起做用,而是对单帧的整个 vector 起做用,从新使它们单位标准化。ci
SoftmaxComponent:为最终的非线性特征,便于输出标准几率
-
SigmoidComponent
-
TanhComponent
-
PowerComponent
-
SoftmaxComponent
-
LogSoftmaxComponent
-
RectifiedLinearComponent
-
NormalizeComponent
- 归一化层,对输入进行归一化。网络训练过程当中,输入特征是一个mini-batch,即包含多个特征向量的矩阵。归一化层会对这个mini-batch进行归一化。该组员只有一个参数,与目标训练集无关。
- 用于稳定训练 p-norm 网络,它是固定的,非可训练,非线性的。它不是在个别 individual activations(即个别结点的激活) 上起做用,而是对单帧的整个 vector 起做用,从新使它们单位标准化。
-
dim
-
SoftHingeComponent
-
PnormComponent
- 该组员只有3个参数,输入输出位数依赖于上下层,参数p是固定的,与目标训练集无关。
- 为非线性,传统的神经网络模型中使用 TanhComponent
-
output-dim
-
输出维数通常是输入维数是十分之一,如:
pnorm_input_dim=3000
pnorm_output_dim=300
- input-dim
- p
-
MaxoutComponent
-
ScaleComponent
-
AffineComponent
-
AffineComponentPreconditioned
-
AffineComponentPreconditionedOnline
-
SumGroupComponent
-
BlockAffineComponent
- learning-rate // optional.
- input-dim
- output-dim
- num-blocks
-
param-stddev
- parameter standard deviation,权值的标准差
- 将参数的标注差限制在一个范围内,防止参数变化过大,该方法有利于防止over-fitting
-
bias-stddev
- bias standard deviation,偏置的标准差
- 将偏置的标准差限制在一个范围内,防止偏置变化过大,该方法有利于防止over-fitting
-
BlockAffineComponentPreconditioned
- learning-rate // optional.
- alpha //Precondition
- input-dim
- output-dim
- num-blocks
-
param-stddev
- parameter standard deviation,权值的标准差
- 将参数的标注差限制在一个范围内,防止参数变化过大,该方法有利于防止over-fitting
-
bias-stddev
- bias standard deviation,偏置的标准差
- 将偏置的标准差限制在一个范围内,防止偏置变化过大,该方法有利于防止over-fitting
-
PermuteComponent
-
DctComponent
- dim
- dct-dim
- reorder
- dct-keep-dim
-
FixedLinearComponent
-
FixedAffineComponent
- 类 LDA-like 的非相关转换,由标准的 weight matrix plus bias 组成(即Wx+b),经过标准的 stochastic gradient descent(非minibatch SGD?) 训练而来,使用 global learning rate
- matrix
-
FixedScaleComponent
- 固定激活重调组员
- 该组员位于SoftmaxComponent以前,维数与SoftmaxComponent相同,都是Senone的个数,该组员的参数是一个先验几率向量,其中第i个元素是第i个Senone在全部对齐($alidir/ali.*.gz)中出现的几率(Senone i出现次数/全部Senone全部出现次数)
- scales,先验几率参数,须要从对齐($alidir/ali.*.gz)和模型($alidir/final.mdl)中获取
-
FixedBiasComponent
-
SpliceComponent
- 对输入特征进行左右展开,目的是为了让网络可以获取到帧间特征的关联性。例如我要识别当前帧是哪一个triphone,我能够将当前帧以前5帧和当前帧之后5帧一块儿构成一个由11个帧组成的特征做为网络输入。
- 定义了完成 feature-frame-splicing 的窗口尺寸
- input-dim
- context
- left-context
- right-context
- const-component-dim = 0
-
SpliceMaxComponent
- dim
- context
- left-context
- right-context
-
DropoutComponent
- dim
- dropout-proportion
- dropout-scale
-
AdditiveNoiseComponent
-
Convolutional1dComponent
-
MaxpoolingComponent
- 池化层Component,该层会对卷积的特征进行最大化池化,即在一个范围内(池化面积)从同一个卷积核的输出选取最大的一个做为下一层的输入,池化核不重叠。池化的好处除了可以降维之外,更重要的一点是可以去除输入特征中的一些扰动。
- input-dim
- output-dim
-
pool-size
-
pool-stride
- 池化范围,此处与卷积层相同,会将向量转换成矩阵进行处理。
- /*
- Input and output of maxpooling component is arranged as
- x (time), y (frequency), z (channel)
- for efficient pooling.
- */