softmax求导函数
softmax层的输出为spa
其中,表示第L层第j个神经元的输入,
表示第L层第j个神经元的输出,e表示天然常数。3d
如今求对
的导数,blog
若是j=i,it
1io
若是ji,function
2im
cross-entropy求导d3
loss function为db
对softmax层的输入求导,以下
label smoothing
对于ground truth为one-hot的状况,使用模型去拟合这样的函数具备两个问题:首先,没法保证模型的泛化能力,容易致使过拟合; 其次,全几率和零几率将鼓励所属类别和非所属类别之间的差距会被尽量拉大,由于模型太过相信本身的预测了。
为了解决这一问题,使得模型没有那么确定,提出了label smoothing。
原ground truth为,添加一个与样本无关的分布
,获得
用表示预测结果,则loss function为
label smoothing是论文《Rethinking the Inception Architecture for Computer Vision》中提出的,文中代表,使用label smoothing后结果有必定程度的提高。在论文中,,k表示类别,
。