中文信息处理之正向最大匹配法(上)

文章目录 一、工具 二、任务分词 1. 抽取词表,统计词频 一、工具 语言:python3.5 语料:人民日报语料 二、任务分词 1. 抽取词表,统计词频 给的素材如图 1 所示: 观察上边的格式,可以得到:所抽取的文本信息(包括标点)都是在两个空格和 / 之间,所以正则表达式如下: # text 是文本信息 import re pattern = re.compile(r' (.*?)/')
相关文章
相关标签/搜索