中文信息处理之正向最大匹配法（上）

时间 2021-01-14

标签 NLP 繁體版

原文原文链接

文章目录一、工具二、任务分词 1. 抽取词表，统计词频一、工具语言：python3.5 语料：人民日报语料二、任务分词 1. 抽取词表，统计词频给的素材如图 1 所示：观察上边的格式，可以得到：所抽取的文本信息（包括标点）都是在两个空格和 / 之间，所以正则表达式如下： # text 是文本信息 import re pattern = re.compile(r' (.*?)/')

>>阅读原文<<

最新文章

欢迎关注本站公众号,获取更多信息