NLP学习(五)-中文语料处理

1.中文分词三大类 基于字典,词库进行匹配 正向最大匹配 逆向最大匹配 双向最大匹配 设立切分标志法 最佳匹配 基于词频度统计 N-gram模型 隐马尔科夫模型 基于字标注的中文分词方法 基于知识理解 2.结巴分词 # # -*- coding: utf-8 -*- # # # from __future__ import unicode_literals # import sys # sys.p
相关文章
相关标签/搜索