使用jieba维护自定义词、停用词表

对于文本处理来讲,好的分词结果,是一切开始的基础。下面结合个人使用,简要说说使用jieba分词,如何添加、删除自定义词,以及使用停用词表,方便本身之后查阅。python

1 维护自定义词

1.1 添加自定义词

方法一:

import jieba
jieba.add_word("自定义词1")
jieba.add_word("自定义词2")

方法二:

方法一须要咱们手动一个个添加,当自定义词较多时,咱们能够用下面的方法:git

import jieba
jieba.load_userdict(file_name)

其中, file_name 为文件类对象或自定义词典的路径,词典格式和 dict.txt 同样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。在实际使用时,发现没有给词频时,并不能将有些词正确分词,本身尝试几遍后,发现人为给一个比较大的词频就能够分出来了。具体缘由尚未深挖。github

1.2 删除自定义词

与添加相对应的,删除的方法也有两个。web

方法一:

import jieba
jieba.del_word("自定义词1")

方法二:

将词从自定义的文本文件中删除。svg

2 停用词过滤

停用词过滤主要是本身构造停用词表文本文件,并将文本中的内容读入list,对分词后的结果逐个检查是否在停用词列表中,若是在,就过滤掉,最后获得过滤后的结果。编码

这篇博客写做时参考了一下内容:
1 http://blog.csdn.net/u012052268/article/details/77825981
2 https://github.com/fxsjy/jieba/blob/master/test/test_userdict.pyspa