李宏毅nlp学习笔记05:BERT

1.Context Vector(考虑上下文关系的向量): 2.self-supervised learning(自监督学习): 3.预测下一个token: 需要注意的是,输入w1来预测出w2的时候,是不能同时把w2输入的,很显然的。否则模型直接训练为与下一个输入相同即可。 通过h1来得出输出为w1的方法,上图中的右侧为一种方法。 最早的使用的model 是一个LSTM: 现在一般使用的是self
相关文章
相关标签/搜索