自然语言理解系列论文笔记

1 BERT 双向的Transformer预训练语言模型,使用fine-tuning用于下游任务(用于下游任务的策略有两种,基于特征和微调)。主要是用Masked LM实现双向自编码,摒弃先前的自回归方式(自左向右或自右向左预测下一个单词,无法同时利用上下文信息),实现了上下文信息的利用。 BERT输入 输入格式:[cls] Text-A [SEP] Text-B [SEP] (源码有自动处理的过
相关文章
相关标签/搜索