论文笔记:Enhancing Pre-trained Chinese Character Representation with Word-aligned Attention

1. 概述 目前,很多NLP算法大多采用主流的预训练模型+下游任务微调这样的算法架构。预训练模型种类繁多,如下图 用的最多的莫过于大名鼎鼎的BERT预训练模型,同样是基于Pre-training和Fine-tuning模式架构的 不管啥模型,第一件事都是 tokenizer。对于 BERT 来说,英文的 token 是 word-piece,中文的是字(这也对后面的实验造成了很大的麻烦,因为要对齐
相关文章
相关标签/搜索