Bert训练过程

word2vec存在问题: 语言模型如rnn、lstm最后输出的是整个句子的向量,而我们需要预测的是其中某个词的向量,所以用其做为词向量训练不合适, 有了双向lstm,即ELMo。   Bert的预训练过程:  bert:两个句子如果相连则输出0,不相连则输出1,然后将所有句子两两组合输入模型,开头加【cls】第一句【sep】第二句【sep】损失函数为mask单词和句子间关系损失之和。  bert
相关文章
相关标签/搜索