[pytorch]pytorch loss function 总结

时间 2019-12-15

标签 pytorch loss function 总结繁體版

原文原文链接

原文： http://www.voidcn.com/article/p-rtzqgqkz-bpg.htmljavascript

最近看了下 PyTorch 的损失函数文档，整理了下本身的理解，从新格式化了公式以下，以便之后查阅。html

注意下面的损失函数都是在单个样本上计算的，粗体表示向量，不然是标量。向量的维度用 N 表示。java

nn.L1Loss

loss (x, y) = 1 N \sum i = 1 N | x - y |

nn.SmoothL1Loss

也叫做 Huber Loss，偏差在 (-1,1) 上是平方损失，其余状况是 L1 损失。git

loss (x, y) = 1 N ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ 1 2 (x i - y i) 2 | x i - y i | - 1 2, if | x i - y i | < 1 otherwise

nn.MSELoss

平方损失函数
github

loss (x, y) = 1 N \sum i = 1 N | x - y | 2

nn.BCELoss

二分类用的交叉熵，TODO数组

loss (o, t) = - 1 N \sum i = 1 N [t i * log (o i) + (1 - t i) * log (1 - o i)]

nn.CrossEntropyLoss

交叉熵损失函数网络

loss (x, label) = - log e x label \sum N j = 1 e x j = - x label + log \sum j = 1 N e x j

而 x 是没有通过 Softmax 的激活值。参考 cs231n 做业里对 Softmax Loss 的推导。函数

nn.NLLLoss

负对数似然损失函数（Negative Log Likelihood）
google

loss (x, label) = - x label

在前面接上一个 LogSoftMax 层就等价于交叉熵损失了。注意这里的 xlabel 和上个交叉熵损失里的不同（虽然符号我给写同样了），这里是通过 log 运算后的数值，atom

nn.NLLLoss2d

和上面相似，可是多了几个维度，通常用在图片上。

input, (N, C, H, W)
target, (N, H, W)

好比用全卷积网络作 Semantic Segmentation 时，最后图片的每一个点都会预测一个类别标签。

nn.KLDivLoss

KL 散度，又叫作相对熵，算的是两个分布之间的距离，越类似则越接近零。

loss (x, y) = 1 N \sum i = 1 N [y i * (log y i - x i)]

注意这里的 xi 是 log 几率，刚开始还觉得 API 弄错了。

nn.MarginRankingLoss

评价类似度的损失

loss (x 1, x 2, y) = max (0, - y * (x 1 - x 2) + margin)

这里的三个都是标量，y 只能取 1 或者 -1，取 1 时表示 x1 比 x2 要大；反之 x2 要大。参数 margin 表示两个向量至少要相聚 margin 的大小，不然 loss 非负。默认 margin 取零。

nn.MultiMarginLoss

多分类（multi-class）的 Hinge 损失，

loss (x, y) = 1 N \sum i = 1, i \neq y N max (0, (margin - x y + x i) p)

其中 1≤y≤N 表示标签， p 默认取 1， margin 默认取 1，也能够取别的值。参考 cs231n 做业里对 SVM Loss 的推导。

nn.MultiLabelMarginLoss

多类别（multi-class）多分类（multi-classification）的 Hinge 损失，是上面 MultiMarginLoss 在多类别上的拓展。同时限定 p = 1，margin = 1.

loss (x, y) = 1 N \sum i = 1, i \neq y j n \sum j = 1 y j \neq 0 [max (0, 1 - (x y j - x i))]

这个接口有点坑，是直接从 Torch 那里抄过来的，见 MultiLabelMarginCriterion 的描述。而 Lua 的下标和 Python 不同，前者的数组下标是从 1 开始的，因此用 0 表示占位符。有几个坑须要注意，

这里的 x,y 都是大小为 N 的向量，若是 y 不是向量而是标量，后面的 ∑j 就没有了，所以就退化成上面的 MultiMarginLoss.
限制 y 的大小为 N ，是为了处理多标签中标签个数不一样的状况，用 0 表示占位，该位置和后面的数字都会被认为不是正确的类。如 y=[5,3,0,0,4] 那么就会被认为是属于类别 5 和 3，而 4 由于在零后面，所以会被忽略。
上面的公式和说明只是为了和文档保持一致，其实在调用接口的时候，用的是 -1 作占位符，而 0 是第一个类别。

举个梨子，

import torch
loss = torch.nn.MultiLabelMarginLoss()
x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
print loss(x, y) # will give 0.8500

按照上面的理解，第 3, 0 个是正确的类，1, 2 不是，那么，

loss = 1 4 \sum i = 1, 2 \sum j = 3, 0 [max (0, 1 - (x j - x i))] = 1 4 [(1 - (0.8 - 0.2)) + (1 - (0.1 - 0.2)) + (1 - (0.8 - 0.4)) + (1 - (0.1 - 0.4))] = 1 4 [0.4 + 1.1 + 0.6 + 1.3] = 0.85

*注意这里推导的第二行，我为了简短，都省略了 max(0, x) 符号。

nn.SoftMarginLoss

多标签二分类问题，这 N 项都是二分类问题，其实就是把 N 个二分类的 loss 加起来，化简一下。其中 y 只能取 1,−1 两种，表明正类和负类。和下面的实际上是等价的，只是 y 的形式不一样。

loss (x, y) = \sum i = 1 N log (1 + e - y i x i)

nn.MultiLabelSoftMarginLoss

上面的多分类版本，根据最大熵的多标签 one-versue-all 损失，其中 y 只能取 1,−1 两种，表明正类和负类。

loss (x, y) = - \sum i = 1 N [y i log e x i 1 + e x i + (1 - y i) log 1 1 + e x i]

nn.CosineEmbeddingLoss

余弦类似度的损失，目的是让两个向量尽可能相近。注意这两个向量都是有梯度的。

loss (x, y) = {1 - cos (x, y) max (0, cos (x, y) + margin) if if y = = 1 y = = - 1

margin 能够取 [−1,1] ，可是比较建议取 0-0.5 较好。

nn.HingeEmbeddingLoss

不知道作啥用的。另外文档里写错了， x,y 的维度应该是同样的。

loss (x, y) = 1 N {x i max (0, margin - x i) if if y i = = 1 y i = = - 1

nn.TripleMarginLoss

L (a, p, n) = 1 N (\sum i = 1 N max (0, d (a i, p i) - d (a i, n i) + margin))

其中

d(xi,yi)=∥xi−yi∥22