通过增加模型的大小来加速Transformer的训练和推理

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:Eric Wallace 编译:ronghuaiyang 导读 你没有看错,确实是通过增大模型的大小,大家别忘了,在训练的时候,有个隐含条件,那就是模型需要训练到收敛。 模型训练会很慢 在深度学习中,使用更多的计算(例如,增加模型大小、数据集大小或训练步骤)通常会导致更高的准确性。考虑到最近像BERT这样的无监督预训练方法的成功,这
相关文章
相关标签/搜索