The Evolved Transformer 学习笔记

摘要 通过neural architecture search的方法提升普通transformer, 速度比普通transformer提升两倍, 效果在机器翻译比普通transformer提升0.7 BLEU neural architecture search 设计出一些可能的神经网络结构,分别在测试集上评估效果 Search Space 本文搜索空间包括两个stackable cell,一个在
相关文章
相关标签/搜索