BERT和XLNET的对比

时间 2021-01-13

原文原文链接

学习链接对比方面： 1.BERT会使用mask的Word的vector和position而xlnet在训练的时候不使用mask的Word的vector和position 2.XLNET使用多种因式分解进行预测。这张图表示什么意思？QUERY和KEY,VALUE表示什么？ 3.对每层的注意力进行掩码。 4.由于不知道预测词的位置，所以需要另外一个模型来预测预测值的位置