Elmo/GPT/Eert/Attention/Transformer总结

    elmo、GPT、bert三者区别 它们都是基于语言模型的动态词向量。下面从几个方面对这三者进行对比: (1)特征提取器:elmo采用LSTM进行提取,GPT和bert则采用Transformer进行提取。很多任务表明Transformer特征提取能力强于LSTM,elmo采用1层静态向量+2层LSTM,多层提取能力有限,而GPT和bert中的Transformer可采用多层,并行计算能力
相关文章
相关标签/搜索