Attention is all you need阅读笔记

xinxinzhang 每个单元的介绍: 一、add&norm (1).norm(层正则化): 原文:http://blog.csdn.net/zhangjunhit/article/details/53169308 本文主要是针对 batch normalization 存在的问题 提出了 Layer Normalization 进行改进的。 这里首先来回顾一下 batch normalizat
相关文章
相关标签/搜索