千万级巨型汉语词库分享

算法+语料≈NLP 这是一个六千万词汇量的分类词库,作HanLP这么久,我逐渐体会到,算法没法解决全部问题,词库也很是重要。一般一个算法能够解决80%的问题,剩下的20%不管怎么调节优化,都是拆东墙补西墙。好比上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”做为姓氏,“人”“保”做为名字的二三字的确很是有可能,可是正常人都不会取这个名字。要是我把“人”“保”这两个
相关文章
相关标签/搜索