【译】深度双向Transformer预训练【BERT第一作者分享】

时间 2021-01-13

原文原文链接

【译】深度双向Transformer预训练【BERT第一作者分享】目录 NLP中的预训练语境表示语境表示相关研究存在的问题 BERT的解决方案任务一：Masked LM 任务二：预测下一句 BERT 输入表示模型结构——Transformer编码器 Transformer vs. LSTM 模型细节在不同任务上进行微调 GLUE SQuAD 1.1 SQuAD 2.0 SWAG 分析