最近看了下 PyTorch 的损失函数文档,整理了下本身的理解,从新格式化了公式以下,以便之后查阅。html
注意下面的损失函数都是在单个样本上计算的,粗体表示向量,不然是标量。向量的维度用
N
表示。java
nn.L1Loss
loss(x,y)=1N∑i=1N|x−y|
nn.SmoothL1Loss
也叫做 Huber Loss,偏差在 (-1,1) 上是平方损失,其余状况是 L1 损失。git
loss(x,y)=1N⎧⎩⎨⎪⎪⎪⎪12(xi−yi)2|xi−yi|−12,if |xi−yi|<1otherwise
nn.MSELoss
平方损失函数
github
loss(x,y)=1N∑i=1N|x−y|2
nn.BCELoss
二分类用的交叉熵,TODO数组
loss(o,t)=−1N∑i=1N[ti∗log(oi)+(1−ti)∗log(1−oi)]
nn.CrossEntropyLoss
交叉熵损失函数网络
loss(x,label)=−logexlabel∑Nj=1exj=−xlabel+log∑j=1Nexj
而
x
是没有通过 Softmax 的激活值。参考 cs231n 做业里对 Softmax Loss 的推导。函数
nn.NLLLoss
负对数似然损失函数(Negative Log Likelihood)
google
loss(x,label)=−xlabel
在前面接上一个 LogSoftMax 层就等价于交叉熵损失了。注意这里的
xlabel
和上个交叉熵损失里的不同(虽然符号我给写同样了),这里是通过
log
运算后的数值,atom
nn.NLLLoss2d
和上面相似,可是多了几个维度,通常用在图片上。
- input, (N, C, H, W)
- target, (N, H, W)
好比用全卷积网络作 Semantic Segmentation 时,最后图片的每一个点都会预测一个类别标签。
nn.KLDivLoss
KL 散度,又叫作相对熵,算的是两个分布之间的距离,越类似则越接近零。
loss(x,y)=1N∑i=1N[yi∗(logyi−xi)]
注意这里的
xi
是
log
几率,刚开始还觉得 API 弄错了。
nn.MarginRankingLoss
评价类似度的损失
loss(x1,x2,y)=max(0,−y∗(x1−x2)+margin)
这里的三个都是标量,y 只能取 1 或者 -1,取 1 时表示 x1 比 x2 要大;反之 x2 要大。参数 margin 表示两个向量至少要相聚 margin 的大小,不然 loss 非负。默认 margin 取零。
nn.MultiMarginLoss
多分类(multi-class)的 Hinge 损失,
loss(x,y)=1N∑i=1,i≠yNmax(0,(margin−xy+xi)p)
其中
1≤y≤N
表示标签,
p
默认取 1,
margin
默认取 1,也能够取别的值。参考 cs231n 做业里对 SVM Loss 的推导。
nn.MultiLabelMarginLoss
多类别(multi-class)多分类(multi-classification)的 Hinge 损失,是上面 MultiMarginLoss 在多类别上的拓展。同时限定 p = 1,margin = 1.
loss(x,y)=1N∑i=1,i≠yjn∑j=1yj≠0[max(0,1−(xyj−xi))]
这个接口有点坑,是直接从 Torch 那里抄过来的,见 MultiLabelMarginCriterion 的描述。而 Lua 的下标和 Python 不同,前者的数组下标是从 1 开始的,因此用 0 表示占位符。有几个坑须要注意,
- 这里的
x,y
都是大小为
N
的向量,若是
y
不是向量而是标量,后面的
∑j
就没有了,所以就退化成上面的 MultiMarginLoss.
- 限制
y
的大小为
N
,是为了处理多标签中标签个数不一样的状况,用 0 表示占位,该位置和后面的数字都会被认为不是正确的类。如
y=[5,3,0,0,4]
那么就会被认为是属于类别 5 和 3,而 4 由于在零后面,所以会被忽略。
- 上面的公式和说明只是为了和文档保持一致,其实在调用接口的时候,用的是 -1 作占位符,而 0 是第一个类别。
举个梨子,
import torch
loss = torch.nn.MultiLabelMarginLoss()
x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
print loss(x, y)
按照上面的理解,第 3, 0 个是正确的类,1, 2 不是,那么,
loss=14∑i=1,2∑j=3,0[max(0,1−(xj−xi))]=14[(1−(0.8−0.2))+(1−(0.1−0.2))+(1−(0.8−0.4))+(1−(0.1−0.4))]=14[0.4+1.1+0.6+1.3]=0.85
*注意这里推导的第二行,我为了简短,都省略了 max(0, x) 符号。
nn.SoftMarginLoss
多标签二分类问题,这
N
项都是二分类问题,其实就是把
N
个二分类的 loss 加起来,化简一下。其中
y
只能取
1,−1
两种,表明正类和负类。和下面的实际上是等价的,只是
y
的形式不一样。
loss(x,y)=∑i=1Nlog(1+e−yixi)
nn.MultiLabelSoftMarginLoss
上面的多分类版本,根据最大熵的多标签 one-versue-all 损失,其中
y
只能取
1,−1
两种,表明正类和负类。
loss(x,y)=−∑i=1N[yilogexi1+exi+(1−yi)log11+exi]
nn.CosineEmbeddingLoss
余弦类似度的损失,目的是让两个向量尽可能相近。注意这两个向量都是有梯度的。
loss(x,y)={1−cos(x,y)max(0,cos(x,y)+margin)if if y==1y==−1
margin 能够取
[−1,1]
,可是比较建议取 0-0.5 较好。
nn.HingeEmbeddingLoss
不知道作啥用的。另外文档里写错了,
x,y
的维度应该是同样的。
loss(x,y)=1N{ximax(0,margin−xi)if if yi==1yi==−1
nn.TripleMarginLoss
L(a,p,n)=1N(∑i=1Nmax(0, d(ai,pi)−d(ai,ni)+margin))
其中
d(xi,yi)=∥xi−yi∥22