GELU的两个初等函数近似是怎么来的?

©PaperWeekly 原创 · 做者|苏剑林node 单位|追一科技c# 研究方向|NLP、神经网络微信 GELU,全称为 Gaussian Error Linear Unit,也算是 RELU 的变种,是一个非初等函数形式的激活函数。它由论文 Gaussian Error Linear Units (GELUs) [1] 提出,后来被用到了 GPT 中,再后来被用在了 BERT 中,再再后来
相关文章
相关标签/搜索