北大开源全新中文分词工具包:准确率远超THULAC、结巴分词

北大开源全新中文分词工具包:准确率远超THULAC、结巴分词 最近,北大开源了一个中文分词工具包,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的结巴分词误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32%。 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用,支持多领域分词,在不同领域的数据上都
相关文章
相关标签/搜索