你的 CRF 层的学习率可能不够大

©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP、神经网络 CRF 是做序列标准的经典方法,它理论优雅,实际也很有效,如果还不了解 CRF 的读者欢迎阅读旧作简明条件随机场 CRF 介绍 | 附带纯 Keras 实现。 在 BERT 模型出来之后,也有不少工作探索了 BERT+CRF 用于序列标注任务的做法。然而,很多实验结果显示(比如论文 BERT Meets
相关文章
相关标签/搜索