论文笔记：Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention

时间 2021-01-07

标签自然语言处理人工智能深度学习算法 nlp 栏目 Microsoft Office 繁體版

原文原文链接

1. 概述目前，很多NLP算法大多采用主流的预训练模型+下游任务微调这样的算法架构。预训练模型种类繁多，如下图用的最多的莫过于大名鼎鼎的BERT预训练模型，同样是基于Pre-training和Fine-tuning模式架构的不管啥模型，第一件事都是 tokenizer。对于 BERT 来说，英文的 token 是 word-piece，中文的是字（这也对后面的实验造成了很大的麻烦，因为要对齐

>>阅读原文<<