softmax-交叉熵损失函数的求导计算推导

目前大部分多分类任务对最后一层的输出做softmax,然后使用交叉熵作为损失函数,再对loss求导反向传播来更新w,经过多轮训练得到训练好的w,这就是模型。 我相信许多刚入门的machine learninger只是知道该这么用,但是不明白为什么这样就可以更新w了,下面推导最后一层的导数 最后一层的第i个输出是    其对应的softmax处理是 输入公式太麻烦了  还是手写的吧  这里的aj 和
相关文章
相关标签/搜索