XLNet

时间 2021-01-12

原文原文链接

1.克服了BERT没有考虑文本顺序的缺陷。 2.可以考虑文本内容，还是双向的，文本的顺序还是随机的一个模型。 3.用了最先进的transformer-XL,获得了更牛逼的性能。它比BERT在20个任务上好，还在18个任务上实现了最好的结果。 1.作者用随机所有句子中的顺序，加上双向lstm,从而获得了context信息（评价：完全摒弃了语句的顺序） 2、因为没有mask,所以去除了pretra