论文阅读笔记:《Contextual String Embeddings for Sequence Labeling》

文章引起我关注的主要原因是在CoNLL03 NER的F1值超过BERT达到了93.09左右,名副其实的state-of-art。考虑到BERT训练的数据量和参数量都极大,而该文方法只用一个GPU训了一周,就达到了state-of-art效果,值得花时间看看。 一句话总结:使用BiLSTM模型,用动态embedding取代静态embedding,character-level的模型输出word-le
相关文章
相关标签/搜索