BERT和XLNET的对比

学习链接 对比方面: 1.BERT会使用mask的Word的vector和position而xlnet在训练的时候不使用mask的Word的vector和position 2.XLNET使用多种因式分解进行预测。 这张图表示什么意思?QUERY和KEY,VALUE表示什么? 3.对每层的注意力进行掩码。 4.由于不知道预测词的位置,所以需要另外一个模型来预测预测值的位置
相关文章
相关标签/搜索