softmax求导、cross-entropy求导及label smoothing

softmax求导函数

softmax层的输出为spa

其中,表示第L层第j个神经元的输入,表示第L层第j个神经元的输出,e表示天然常数。3d

如今求的导数,blog

若是j=i,it

           1io

若是ji,function

  2im

 

cross-entropy求导d3

loss function为db

softmax层的输入求导,以下

        

        

         

 

label smoothing

对于ground truth为one-hot的状况,使用模型去拟合这样的函数具备两个问题:首先,没法保证模型的泛化能力,容易致使过拟合; 其次,全几率和零几率将鼓励所属类别和非所属类别之间的差距会被尽量拉大,由于模型太过相信本身的预测了。

为了解决这一问题,使得模型没有那么确定,提出了label smoothing。

原ground truth为,添加一个与样本无关的分布,获得

 

表示预测结果,则loss function为

label smoothing是论文《Rethinking the Inception Architecture for Computer Vision》中提出的,文中代表,使用label smoothing后结果有必定程度的提高。在论文中,,k表示类别,

相关文章
相关标签/搜索