论文精度(1)-- Lipschitz constrained parameter initialization for deep transformers

概览 改变residual connection与layer normalization的位置可以缓解深层Transformer难以优化的问题。 作者比较了计算顺序(residual connection与layer normalization的位置)上的细微差别,并提出了一种参数初始化方法,该方法利用Lipschitz约束对Transformer的参数进行初始化。 即使不调整原来的计算顺序,应用
相关文章
相关标签/搜索