jieba(结巴)是一个强大的分词库,完美支持中文分词,作为最好的Python中文分词组件。搜索引擎
安装:pip install jiebaspa
支持三种分词模式:code
1.精确模式,试图将句子最精确地切开,适合文本分析;索引
import jieba
strings = '今每天气真好'
seg = jieba.cut(strings,cut_all=False)
print(','.join(seg))
output : 今每天气,真,好ip
cut_all参数默认为False,全部使用cut方法时默认为精确模式string
2.全模式,把句子中全部的能够成词的词语都扫描出来,速度很是快,可是不能解决歧义;pip
import jieba
strings = '今每天气真好'
seg = jieba.cut(strings,cut_all=True)
print(','.join(seg))
output : 今天,今每天气,每天,天气,真好import
3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提升召回率,适合用于搜索引擎分词。基础
import jieba
strings = '今每天气真好'
seg = jieba.cut_for_search(strings)
print(','.join(seg))
output : 今天,每天,天气,今每天气,真,好搜索