log softmax的梯度求解（Gradient of log(softmax) )

时间 2020-12-30

原文原文链接

背景 DNN分类任务中，有两个相似的常见的损失函数： 1）二分类：-log(sigmoid(x))，其等价于softplus(-x)，曲线比较直观，比较好理解。-- 《Deep Learning Book》中有较为详细的推导和曲线图，这里不复述。 2）多分类：cross_entropy(softmax(x))，或-log(softmax(x))；但这个函数不好画曲线，很少有资料描述它的梯度是什