GLU、sparsemax激活函数

2. sparsemax Softmax: softmax缺点:每个向量位置都有值。 文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。 这里把输入 z 和某个分布 p 的欧式距离最小化。 一种具体的实现是, 参考: 论文;
相关文章
相关标签/搜索