【项目小结】GEC模型中的难点:分词(Tokenizer)与回译(Backtranslation)

前排提示本文涉及的数据集及外部文件在如下连接共享。包括 Lang-8 语料库,词形转换表(涉及79024组变换)与一些有用的pickle文件。算法 连接:https://pan.baidu.com/s/1fW266ZSLoZeEaRCl2yVQCg 提取码:yfhm 序言 GEC模型的概念及解决方案能够参考我以前写的一些论文提纲,但不管采用什么样的解决思路,都绕不开不少瓶颈性的问题。笔者根据本身
相关文章
相关标签/搜索